20 Oct, 2024

AIGC Weekly #93

本周的AIGC周报介绍了多个AI产品和模型，包括陌生人闹钟、BiLin搜索、Reiden和Reworkd等，强调了AI在社交信任、翻译和数据提取中的应用。此外，讨论了生成式AI的推理能力提升、与思维机器合作的新思维方式、Cursor工具的使用技巧，以及AI搜索引擎的构建方法。还提到了一些关于能源、AI开发者的选择、NotebookLM的使用提示等重要研究和应用案例。

歸藏

🫣

封面提示词在这里

从这周开始我们的周刊就会开始收费了，目前暂时只支持信用卡支付，微信和支付宝的应该过几天会开通。

收费之后我就可以投入更多时间去整理，会把很多图像以及视频的优质内容也整理进来。这周先增加了一个“有趣的AI内容的栏目”，各位关于内容上的问题也可以跟我反馈。

另外为了方便交流也建了一个微信群，可以在这期内容最后加我微信，发我你订阅的邮箱我会拉你进群，一些重要信息和资源我也会先往群里丢。

从明天开始的首周会开启七折订阅活动，目前价格为一年28 20美金，你可以点这里订阅，也可以拉到周刊中间的部分有个按钮，点那里也行。

再次感谢各位的订阅，拜谢🙏。

上周精选 ✦

AI行业进入深水区，巨无霸卷能源，创业公司卷体验

上周两部分新闻最多，一部分是微软谷歌等几个巨无霸公司不满足于卷算力或者是卷算力达到了瓶颈，开始对能源行业下手，纷纷瞄准了核能这个领域。

英伟达和Mistral发布了他们的新LLM

Nvidia 发布 Nemotron 70B 模型

Nvidia 发布的 Nemotron 70B 引发了大规模讨论。从他们自己的测试来看，分数完全超过了 Llama 3.1 405B、GPT4o 和 Claude 3.5 Sonnet。

以下是评估结果 (Nemotron 70B 对比 Claude 3.5 对比 GPT4o)：

Arena Hard 测试：85.0 vs 79.2 vs 79.3
AlpacaEval 2 LC 测试：57.6 vs 52.4 vs 57.5
MT Bench 测试：8.98 vs 8.81 vs 8.74

但是在一些其他的测试集如GPQA和MMLU Pro和aider 上。Nemotron 70B 和 Llama 3.1 70B 的表现差不多甚至更差，所以具体的能力还得看到时候 LLM 竞技场的评分了。

核心是在训练过程中使用了 Llama-3.1-Nemotron-70B-Reward 和 HelpSteer2-Preference 提示进行 RLHF 训练。同时模型的权重和数据集都是开源的。
An image to describe post

Mistral发布了两个小模型，Ministral 3B 和 Ministral 8B

Mistral发布了两个小模型，Ministral 3B 和 Ministral 8B。

他们说这是世界上最好的边缘模型（edge models），数据确实非常亮眼，所有参数全面超越同规模模型。

两种模型均支持长达 128k 的上下文长度；
Ministral 8B 有特殊的交错滑动窗口注意力模式，以加快和提高内存利用率；
Ministral 8B Instruct 模型可以下载不可商用。
An image to describe post

Adobe 发布AI视频生成模型和一系列AI功能

Adobe上周召开了AdobeMAX大会，发布了他们预告了很久的视频生成模型以及一堆AI功能和产品。

发布Firefly 视频生成模型，支持文生视频、图生视频：

最强的是支持视频编辑，比如这个镜头拍摄的时候是拿的苹果，可以编辑为拿旁边的梨。

还可以生成一些纯黑背景的光效素材，然后用滤色模式合并。

生成扩展功能：

可以直接在 Adobe Premiere 中延长生成某一段视频填补镜头之间的间隙、或者延长镜头。

也可以单击并拖动音频剪辑的末端，以延长生成环境声音，以平滑音频编辑。

这个对于创作者来说还是挺重要的，如果生成质量好的话缺的视频和音频就不需要补拍补录了，不过目前不能再大于1080P的素材上使用，有点鸡肋。

Nutrition labels：

Adobe 的新网络应用程序为了保护创作者的作品不受人工智能的不当使用，同时确保他们获得适当的归属。

通过集中的网络应用程序，Adobe 提供了一种简化的方式来应用和管理内容凭证，这有助于创作者更容易地保护自己的作品。

Project Scenic：

Scenic 实际上会生成一个完整的 3D 场景，允许添加、移动特定对象并调整其大小，而不是仅仅依赖文本描述。然后将最终结果用作生成与 3D 计划匹配的 2D 图像的参考。

Project Motion：

这是一个两步工具，可用于轻松制作各种风格的动画图形。第一阶段是一个简单的动画生成器，允许创意人员向文本和基本图像添加运动效果，而无需事先具备动画经验。然后使用文本描述和参考图像对其进行转换 - 添加颜色、纹理和背景序列。

Project Clean Machine：

是一种编辑工具，可以自动消除图像和视频中烦人的干扰，例如相机闪光灯和走进画面的人。
An image to describe post

Meta 开源视频生成模型对应的两个测试集

Meta 开源了他们视频生成模型对应的两个测试集，对从业者和创作者都很有帮助。可以看看Meta 怎么写提示词和测试的。

推荐视频创作者维护一个自己的测试集对于测试目前层出不穷的视频模型很有帮助。

Movie Gen Video Bench

是迄今为止发布的最大规模、最全面的文本生成视频评估基准。包含1,000 多个提示词，从详细的人类活动到动物、物理现象、奇特主题等各种概念。

具体的概念分类有：

人类活动（肢体和嘴巴运动、情绪等）
动物
自然与风景
物理学（流体动力学、重力、加速度、碰撞、爆炸等）
不寻常的主题和不寻常的活动。

同时在上面的分类上还有高、中、低不同的运动幅度测试。

Movie Gen Audio Bench

旨在评估"视频生成音频"和"文本配合视频生成音频"的能力。包括 527 个生成的视频，以及相应的音效和音乐提示。
An image to describe post

AIGC Weekly #63

这篇周刊涵盖了上周AI领域的众多重要进展和有趣内容,对了解行业动态很有参考价值：上周的行业重大新闻,如OpenAI CTO Mira Murati介绍即将发布的Sora视频生成模型、苹果发布了30B参数的多模态大语言模型MM1、Cognition发布了首个称为Devin的AI程序员。一些新发布的有趣的AI产品推荐,包括Argil AI生成自己的克隆视频、Magnific AI发布的图片风格转换功能、Babel AI的软件构建Agents、MusePro的iPad AI辅助画图应用等。行业一些宝藏内容分享,如沃顿商学院给教师和学生的提示词库、Nvidia创始人Jensen Huang在斯坦福大学的访谈和演讲。一些优质的行业分析文章,包括大企业如何发挥AI价值、前100个生成式AI应用的数据分析、腾讯一篇关于大模型走势的十个判断、一篇关于如何从零开始训练大模型的分享等。一些前沿的AI相关研究,如斯坦福的Quiet-STAR让语言模型自学思考、谷歌的VLOGGER用于具体化身合成的多模态扩散、腾讯的ELLA为扩散模型配备LLM以增强语义对齐等。

AIGC Weekly #57

DEL

AIGC Weekly #93

上周精选 ✦

AI行业进入深水区，巨无霸卷能源，创业公司卷体验

英伟达和Mistral发布了他们的新LLM

Adobe 发布AI视频生成模型和一系列AI功能

Meta 开源视频生成模型对应的两个测试集

AIGC Weekly #63

AIGC Weekly #57

AIGC Weekly #50 一周年了

AIGC Weekly #44

AIGC Weekly #58 年前量大管饱

AIGC Weekly #42