27 Oct, 2024

AIGC Weekly #94

本周的AIGC周报涵盖了多个重要更新，包括Anthropic推出的Claude数据分析工具和Genmo发布的开源视频生成模型Mochi 1。还提到了一些技术动态，如谷歌的SynthID文本水印功能和苹果iOS 18.2的AI功能更新。此外，报告中提到了一些有趣的AI工具和产品推荐，包括Notion Mail和Paperguide，最后还介绍了一些重点研究，如哈佛医学院的CHIEF癌症检测模型和YOLO模型破解谷歌reCAPTCHA的研究。

歸藏

🫣

封面提示词在这里

Quail现在正式支持微信和支付宝支付了，上周很多无法支付的朋友实在对不起，这周Quail渠道会延续7折的价格，可以在这里订阅。

26号之前在Quail订阅的朋友注意：由于Stripe的问题部分高级订阅用户的订阅费会被退到你自己原来的支付渠道，我会单独给你发个邮件，如果你发现下期的内容需要订阅了，那就是给你退款了。

如果你还愿意订阅的话欢迎再次订阅，给各位带来的麻烦不好意思，无论你是否会再订阅加群的都不会踢。

上周关于AI自动操控界面完成任务的功能很火，刚好Arc新产品也是类似功能，他们理念很有意思，我写了篇内容分析了一下，感兴趣可以看看。

另外上周二的晚上是会写入人工智能史的一天，那天晚上一晚上AI各个领域都有重要发布，太离谱了，不知道那些厂商怎么选的日子。

上周精选 ✦

Anthropic 发布新版Claude 3.5 Sonnet、Claude 3.5 Haiku和Computer use功能

Anthropic 上周发布了 Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet，Claude 3.5 Sonnet 推理得分超过O1。而且 Claude 现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本。

新版Claude 3.5 Sonnet介绍：

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进，尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。

它还将在代理工具使用任务TAU-bench上的表现提高，零售领域从 62.6%提高到 69.2%，在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型，发现它在没有增加延迟的情况下提供了更强的推理能力（在各种用例中高达 10%）。

Claude 3.5 Haiku介绍：

Claude 3.5 Haiku 在各项技能上都有所提高，甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Haiku 在编码任务上尤其强大。例如，它在 SWE-bench Verified 上得分为 40.6%，优于许多使用公开可用的最先进模型（包括原始的 Claude 3.5 Sonnet 和 GPT-4o）的代理。

教Claude使用计算机

为了使这些通用技能成为可能，构建了一个 API，使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API，使 Claude 能够将指令（例如，“使用我的计算机上的数据并在线填写此表格”）翻译成计算机命令（例如，检查电子表格；移动光标打开 Web 浏览器；导航到相关网页；使用这些网页中的数据填写表格；等等）。在评估人工智能模型像人一样使用计算机的能力的OSWorld上。

Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%，明显优于第二好的人工智能系统 7.8% 的得分。当提供更多步骤来完成任务时，克劳德得分为 22.0%。

Claude 使用电脑的时候还会关掉录制按钮偷懒。开始偷偷浏览黄石公园的照片。

其他信息

照例他们也放出了新的Claude 3.5系统提示词，长的有点离谱。

Kyle Corbitt 六小时就搞了一个 Claude Computer use 的客户端。还是开源的，可以直接用它控制你电脑完成任务。

另外，Claude 现在获得了专门的数据分析工具。可以编写和运行 js 代码，基于 Claude 3.5 的能力进行复杂的数学运算和数据分析。
An image to describe post

最强开源视频生成模型 Mochi 1 发布

Genmo 开源 Mochi 1 DiT 视频生成模型。同时Genmo 已经完成了一轮由 NEA 领投的总额为 2840 万美元的 A 轮融资。

模型信息

运动质量:Mochi 1 以每秒 30 帧的速度生成平滑的视频，持续时间长达 5.4 秒，具有高时间连贯性和逼真的运动动态。

Mochi 模拟物理学，如流体动力学、毛发模拟，并表现出一致、流畅的人体动作，开始跨越恐怖谷效应。

提示遵从：展示了与文本提示的卓越一致性，确保生成的视频准确反映了给定的指示。这使用户可以详细控制角色、设置和动作。

初始的视频分辨率为 480P，模型参数量为10 B。

模型使用

Mochi 1 模型文件超过 40G，需要 4XH100 才能跑。但是开源社区能人多啊，kijai 发布新 ComfyUI 插件。可以让你用 20G 显存使用现在最强的开源视频生成模型 Mochi 1。

另外你可以在 Genmo 官方的线上使用Mochi 1。
An image to describe post

SD 3.5模型发布及Comfyui V1版本更新

上周AI图像生态也有比较大的进展，Stability AI 不服输发布了SD3.5系列模型，而且完全开源，只有100万美元以上收入的才需要申请许可。Comfy org成立以后的第一次重大发布也来了，V1版本的Comfyui可以直接已安装包的形式安装，解决了很多新手用户第一步的问题。

SD 3.5模型发布

Stability AI 直接开源这个系列的三个模型包括：Large 和 Large Turbo，Medium 将于 29 号发布。

模型介绍：

Stable Diffusion 3.5 Large ：拥有 80 亿个参数，具有卓越的质量和提示遵从性，是SD系列中最强大的模型。

Stable Diffusion 3.5 Large Turbo ：3.5 Large 的精炼版本只需 4 个步骤即可生成高质量图像，并且具有出色的提示附着力。

Stable Diffusion 3.5 Medium ：拥有 25 亿个参数，并采用改进的 MMDiT-X 架构和训练方法，它能够生成分辨率在 0.25 到 2 兆像素之间的图像。

官方训练的 ControlNets 也将推出，为各种专业用例提供先进的控制功能。

Comfyui 已经直接支持了SD3.5，你可以在这里找到相关的模型文件和工作流。

SD3.5默认的美学表现可能没有FLUX好，但是强处在于模型本身支持微调，这让模型的上限高了很多。
An image to describe post

ComfyUI V1发布

Comfyui 的主要开源贡献者成立 Comfy org 组织之后，Comfy 的迭代速度在不断加快，0.2 的时候他们完成了 UI 的重构。现在更加重磅的版本上线了，一举解决 Comfy 复杂的部署问题。

发布完整桌面安装包

代码签名和安全：ComfyUI 现在可以打开而不会触发安全警告。

跨平台：适用于 Windows / macOS / Linux

自动更新：通过自动更新保持在 ComfyUI 的稳定发布轨道上。

推荐的 Python 环境：不再手动设置的烦恼。

ComfyUI Manager默认安装：直接从 ComfyUI 注册表安装节点，访问最新的版本节点。

Tab 页面：您现在可以使用标签页打开多个工作流程并在它们之间切换。

自定义键位绑定：您现在可以定义真正的自定义键位绑定，而不会受到浏览器级命令的干扰。

自动模型资源导入：可以通过在安装过程中选择该目录来重用现有的 ComfyUI。

Comfy 节点注册表

一个新的自定义节点库，目前库中已经收录了超过 600 个已发布的节点，总版本数超过 2000 个。

Dr.Lt.Data 正在一个新的功能分支中努力将 ComfyUI 管理器与 CNR 集成。其中，基于 Electron 框架的桌面应用是首个支持从节点库安装的平台。
An image to describe post

AIGC Weekly #57

DEL

AIGC Weekly #94

上周精选 ✦

Anthropic 发布新版Claude 3.5 Sonnet、Claude 3.5 Haiku和Computer use功能

最强开源视频生成模型 Mochi 1 发布

SD 3.5模型发布及Comfyui V1版本更新

SD 3.5模型发布

ComfyUI V1发布

AIGC Weekly #57

AIGC Weekly #70 又该补课了

AIGC Weekly #50 一周年了

AIGC Weekly #93

AIGC Weekly #63

AIGC Weekly #44