封面提示词在这里

Quail现在正式支持微信和支付宝支付了,上周很多无法支付的朋友实在对不起,这周Quail渠道会延续7折的价格,可以在这里订阅

26号之前在Quail订阅的朋友注意:由于Stripe的问题部分高级订阅用户的订阅费会被退到你自己原来的支付渠道,我会单独给你发个邮件,如果你发现下期的内容需要订阅了,那就是给你退款了。

如果你还愿意订阅的话欢迎再次订阅,给各位带来的麻烦不好意思,无论你是否会再订阅加群的都不会踢。

上周关于AI自动操控界面完成任务的功能很火,刚好Arc新产品也是类似功能,他们理念很有意思,我写了篇内容分析了一下,感兴趣可以看看。

另外上周二的晚上是会写入人工智能史的一天,那天晚上一晚上AI各个领域都有重要发布,太离谱了,不知道那些厂商怎么选的日子。

上周精选 ✦

Anthropic 发布新版Claude 3.5 Sonnet、Claude 3.5 Haiku和Computer use功能

Anthropic 上周发布了 Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet,Claude 3.5 Sonnet 推理得分超过O1。而且 Claude 现在支持像人类一样操作计算机,通过查看屏幕、移动光标、单击按钮和键入文本。

新版Claude 3.5 Sonnet介绍:

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高,零售领域从 62.6%提高到 69.2%,在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型,发现它在没有增加延迟的情况下提供了更强的推理能力(在各种用例中高达 10%)。

Claude 3.5 Haiku介绍:

Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。

教Claude使用计算机

为了使这些通用技能成为可能,构建了一个 API,使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些网页中的数据填写表格;等等)。在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。当提供更多步骤来完成任务时,克劳德得分为 22.0%。

Claude 使用电脑的时候还会关掉录制按钮偷懒。开始偷偷浏览黄石公园的照片

其他信息

照例他们也放出了新的Claude 3.5系统提示词,长的有点离谱。

Kyle Corbitt 六小时就搞了一个 Claude Computer use 的客户端。还是开源的,可以直接用它控制你电脑完成任务。

另外,Claude 现在获得了专门的数据分析工具。可以编写和运行 js 代码,基于 Claude 3.5 的能力进行复杂的数学运算和数据分析。
An image to describe post

最强开源视频生成模型 Mochi 1 发布

Genmo 开源 Mochi 1 DiT 视频生成模型。同时Genmo 已经完成了一轮由 NEA 领投的总额为 2840 万美元的 A 轮融资。

模型信息

运动质量:Mochi 1 以每秒 30 帧的速度生成平滑的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。

Mochi 模拟物理学,如流体动力学、毛发模拟,并表现出一致、流畅的人体动作,开始跨越恐怖谷效应。

提示遵从:展示了与文本提示的卓越一致性,确保生成的视频准确反映了给定的指示。这使用户可以详细控制角色、设置和动作。

初始的视频分辨率为 480P,模型参数量为10 B。

模型使用

Mochi 1 模型文件超过 40G,需要 4XH100 才能跑。但是开源社区能人多啊,kijai 发布新 ComfyUI 插件。可以让你用 20G 显存使用现在最强的开源视频生成模型 Mochi 1。

另外你可以在 Genmo 官方的线上使用Mochi 1
An image to describe post

SD 3.5模型发布及Comfyui V1版本更新

上周AI图像生态也有比较大的进展,Stability AI 不服输发布了SD3.5系列模型,而且完全开源,只有100万美元以上收入的才需要申请许可。Comfy org成立以后的第一次重大发布也来了,V1版本的Comfyui可以直接已安装包的形式安装,解决了很多新手用户第一步的问题。

SD 3.5模型发布

Stability AI 直接开源这个系列的三个模型包括:Large 和 Large Turbo,Medium 将于 29 号发布。

模型介绍:

Stable Diffusion 3.5 Large :拥有 80 亿个参数,具有卓越的质量和提示遵从性,是SD系列中最强大的模型。

Stable Diffusion 3.5 Large Turbo :3.5 Large 的精炼版本只需 4 个步骤即可生成高质量图像,并且具有出色的提示附着力。

Stable Diffusion 3.5 Medium : 拥有 25 亿个参数,并采用改进的 MMDiT-X 架构和训练方法,它能够生成分辨率在 0.25 到 2 兆像素之间的图像。

官方训练的 ControlNets 也将推出,为各种专业用例提供先进的控制功能。

Comfyui 已经直接支持了SD3.5,你可以在这里找到相关的模型文件和工作流

SD3.5默认的美学表现可能没有FLUX好,但是强处在于模型本身支持微调,这让模型的上限高了很多。
An image to describe post

ComfyUI V1发布

Comfyui 的主要开源贡献者成立 Comfy org 组织之后,Comfy 的迭代速度在不断加快,0.2 的时候他们完成了 UI 的重构。现在更加重磅的版本上线了,一举解决 Comfy 复杂的部署问题。

发布完整桌面安装包

代码签名和安全:ComfyUI 现在可以打开而不会触发安全警告。

跨平台:适用于 Windows / macOS / Linux

自动更新:通过自动更新保持在 ComfyUI 的稳定发布轨道上。

推荐的 Python 环境:不再手动设置的烦恼。

ComfyUI Manager默认安装:直接从 ComfyUI 注册表安装节点,访问最新的版本节点。

Tab 页面:您现在可以使用标签页打开多个工作流程并在它们之间切换。

自定义键位绑定:您现在可以定义真正的自定义键位绑定,而不会受到浏览器级命令的干扰。

自动模型资源导入:可以通过在安装过程中选择该目录来重用现有的 ComfyUI。

Comfy 节点注册表

一个新的自定义节点库,目前库中已经收录了超过 600 个已发布的节点,总版本数超过 2000 个。

Dr.Lt.Data 正在一个新的功能分支中努力将 ComfyUI 管理器与 CNR 集成。其中,基于 Electron 框架的桌面应用是首个支持从节点库安装的平台。
An image to describe post