上周精选✦
谷歌发布Gemini 2.0及一系列其他项目
谷歌上周终于雄起了,发布了同时支持多模态输入输出的Gemini 2.0模型和一堆其他的实验性项目。
Gemini 2.0 Flash
目前只有输入,多模态的输出会在一月份发布详细介绍:
更好的性能:Gemini 2.0 Flash 比 1.5 Pro 更强大,同时仍然提供开发人员期望的 Flash 速度和效率。它还在关键基准测试中改进了多模式、文本、代码、视频、空间理解和推理性能。
原生多模态输出:Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应 - 所有这些都通过单个 API 调用实现。这些新的输出模式可供早期测试人员使用,预计明年将更广泛地推出。
原生工具使用:Gemini 2.0 已经接受过训练使用工具-这是构建代理体验的基本能力。它可以本地调用工具,如 Google 搜索和代码执行,以及通过函数调用调用自定义第三方函数。
多模态实时API:开发人员现在可以使用来自摄像头或屏幕的音频和视频流输入构建实时的多模态应用程序。支持自然对话模式,如中断和语音活动检测。
多模态输入输出真的会很离谱,比如我给了它24分钟的演讲视频,而且没字幕,它直接就帮我生成了一篇翻译加格式整理后的文章,以往这套逻辑需要多个模型和流程合作,现在一步到位。
另外支持了Gemini 2.0各种特性的AI Studio 现在变得特别强大,甚至可以用手机浏览器打开网页,然后开启语音对话和摄像头调用,实现类似Open AI高级语音的效果,响应还巨快。
我还利用Gemini 2.0的视频理解能力实现了快速复刻AI视频,配合海螺文生视频还原度真的很高。
Project Astra
去年就在测试的Project Astra发了一些新的进展,但依然还在测试。
更好的对话:Project Astra 现在具有以多种语言和混合语言交流的能力,更好地理解口音和不常见的词语。
新工具使用:使用 Gemini 2.0,Project Astra 可以使用 Google 搜索、Lens 和地图,使其在您的日常生活中更加有用。
更好的记忆:我们提高了项目 Astra 的记忆能力,确保您可以控制。它现在具有最长 10 分钟的会话记忆,并能够记住与它过去的更多对话
改进的延迟:通过新的流媒体功能和本地音频理解,代理可以在大约人类对话的延迟下理解语言。
Project Mariner
它能够理解和推理浏览器屏幕上的信息,包括像素和网页元素,如文本、代码、图像和表单,然后通过实验性的 Chrome 扩展使用该信息来完成任务。
在对 WebVoyager 基准进行评估时,该基准测试代理在端到端真实世界网络任务上的表现,Project Mariner 作为单一代理设置取得了 83.5%的最新成果。
值得信赖的测试人员现在开始使用实验性的 Chrome 扩展程序来测试 Project Mariner
Jules
最后是Jules,一款实验性的 AI 驱动代码代理,直接集成到 GitHub 工作流程中。它可以在开发人员的指导和监督下处理问题,制定计划并执行,目前来看这个产品是最接近发布的。
Open AI上周发布内容汇总
Open AI 上周继续连续12天的直播发布,最重要的是Sora的上线,其他的还有高级语音的上线,还有iOS 18.2基于Chat GPT的Siri更新,以及连名字都跟Claude一样的Projects功能,Canvas 功能的常规升级。
首先就是Sora的发布,生成分辨率高达 1080p、长度长达 20 秒的视频,支持扩展已有视频、混合视频以及故事版模式,这几个功能和交互都很强,很值得借鉴。
但是模型一塌糊涂,同时贵的离谱,如果你没有买200美元的Pro会员的话,你只能生成最高720P的视频,而且只有可能十几条的使用量,图生视频也无法上传带人物的图片。
这是el.cine 对 Sora 和混元视频模型的对比测试,惨不忍睹。另外我也拿可灵对比了一下Sora,这个模型质量基本处于不可用的状态,文生视频偶尔有好片子,图生视频完全不可用,难为之前用Sora制作内容的艺术家了。
其他内容更新
高级语音上线:Open AI 鸽了一年的带视频实时语音终于上线了,支持屏幕共享和获取摄像头内容,桌面端也有了,另外还有个圣诞模式,会有圣诞老人声线的声音跟你对话,屏幕还会飘雪。
Canvas 常规升级:Canvas 的功能也进行了一些迭代,输如超长提示词的时候可以用Canvas展示,另外现在Canvas终于可以运行Python 代码了,前端代码的渲染还是不行。
Projects 功能:发布了跟Claude连名字都一样的Projects能力,看名字以及可以猜到大致的能力了,支持上传文件,设置单独的提示词和汇总聊天记录。