08 Dec, 2024

AIGC Weekly #100🎉

总结了OpenAI、亚马逊、谷歌等公司的最新动态，包括OpenAI发布O1 Pro和ChatGPT Pro，亚马逊推出Nova系列模型，谷歌发布Gemini-exp-1206等。同时，文中提到了一些新工具和产品推荐，如Youmind、Exa Websets等，强调了AI在各个领域的应用和发展趋势。此外，还讨论了强化学习中的奖励黑客问题及其应对策略，以及未来AI技术的潜在影响。

歸藏

歸藏

AIGC Weekly #100🎉

🫣

封面提示词在这里

上周精选✦

Open AI 动态汇总

Open AI说会连续12天每天在太平洋时间直播发布新东西，第一天晚上熬了一下，太拉垮了就是把一次发布会内容拆12次说，而且对模型的介绍相当少，周末还不播。

发布 O1 的正式版，更快、更强大，更擅长编码更擅长编码、数学和写作，支持多模态，从社区反馈来看这次有很多人觉得O1完全版可以跟Claude 3.5掰手腕了，但是在编程的SWE基准测试上还是差Claude 3.5不少。
发布ChatGPT Pro档位：所有模型无限访问可以使用O1 Pro，200美元一个月。
发布 O1 Pro：在数学、科学和编码等挑战性机器学习基准测试中表现更好，在演示里看着非常强大，这个关于O1 Pro通过截图还原页面的案例很强。
发布基于O1的强化模型微调服务，调整 o1 以学习在自定义领域中以新方式进行推理，RFT比常规微调更好、更高效；只需几个例子就行，在生物化学、安全、法律和医疗保健这几个领域效果比较好。

亚马逊加入模型竞赛，发布Nova系列模型

亚马逊在给Anthropic追加了40亿投资之后还是推出了自己的一系列生成模型，看来吸取了微软的教训不能完全依赖三方公司模型。

发布 Amazon Nova 系列模型，包含覆盖视频、图片、文本的理解、生成和推理模型，具体有：

Amazon Nova Micro是一种纯文本模型，能够以极低的成本提供最低的延迟响应。
Amazon Nova Lite是一种成本非常低的多模式模型，处理图像、视频和文本输入的速度快如闪电。
Amazon Nova Pro是一种功能强大的多模态模型，具有针对各种任务的准确性、速度和成本的最佳组合。
Amazon Nova Premier，是亚马逊多模式模型中最有能力完成复杂推理任务的模型。
Amazon Nova Canvas ，一种最先进的图像生成模型。
Amazon Nova Reel ，最先进的视频生成模型。

其他模型发布汇总

在Open AI开始了12天发布之后，其他家也没闲着，纷纷发布自己的新版本模型，不过都没有大货都是常规更新，所以就放一起说了。

谷歌发布 Gemini-exp-1206

谷歌坚定了自己的刷榜事业，刚发布的模型又夺回了竞技场榜首。200万上下文长度，改进了编码能力。现在可以在 Google AI Studio 和 Gemini API 中免费使用。丛社区测试来看比他自己的前几个版本的编码能力有变强，但是还没有Open AI的O1和Claude 3.5强。

谷歌开源多模态模型PaliGemma2

PaliGemma2是Gemma 2 微调的多模态 LLM。有3B、10B、28B 参数，支持224px、448px、896px图片。PaliGemma 2 为图像生成详细的、上下文相关的提示。而且可以进行化学式识别、乐谱识别、空间推理和胸部 X 光报告生成。

阿里放出了Qwen2 VL 72B

阿里的多模态模型Qwen 2几个月前就发布了，不过当时没有开源最大的72B模型，前几天把72B模型也开源了，视频理解上非常能打，仅次于Gemini。SoTA 理解各种分辨率和比例的图像，理解20分钟以上的视频，可以操作手机、机器人等的智能体。

Mistral 开源 124B 超大多模态 LLM Pixtral Large

目前已经超过 Qwen 72B 变成 LLM 竞技场最强的开源模型。123B多模态解码器、1B参数视觉编码器，128K 上下文窗口：适合至少 30 个高分辨率图像，MathVista、DocVQA、VQAv2 等最新技术。

Meta发布Llama 3.3 70B

Meta也发布了Llama 3.3，基于RLHF等后训练技术的图片，现在Llama 3.3以70B的体量达到了405B的性能，虽然整体相较于GPT-4和Claude 3.5还差点，但是已经差的不多了。
An image to describe post

谷歌发布 Genie 2 游戏世界生成模型

前段时间的游戏实时生成模型都是基于单个游戏的。谷歌前几天发布这个 Genie 2 可能才算真正的游戏生成模型。太强大了，你能想到的都支持，而且支持很多互动和物理交互，比如你可以拿枪打爆炸药桶或者操控忍者跳起来打掉气球。具体特性有：

可以智能地响应键盘上的按键所采取的操作
可以从同一起始框架生成不同的轨迹
可以记住曾经生成过的内容，具有空间上下文。
可以在长达一分钟的时间里保持世界一致性
可以创建不同风格的世界，比如第一人称或则卡通风格
支持创建复杂的 3D 结构视觉场景
支持模拟物理交互，气球爆炸、射击炸药桶等
学习了如何为执行不同活动的各种类型的角色制作动画
与其他智能体甚至和它们的复杂交互进行建模
强大的物理特性模拟：流体、烟雾、重力、光照、反射
支持从现实世界的图像进行生成

AIGC Weekly #57

AIGC Weekly #57

介绍上周的主要AIGC新闻、产品以及推荐的内容：OpenAI关于开发者的更新和ChatGPT能力更新、谷歌新的视频模型、一些值得推荐的研究成果，AI摘要工具、AI应用构建工具等，一些上周的AIGC教程和文章。

AIGC Weekly #50 一周年了

AIGC Weekly #50 一周年了

总结了AI行业过去一周的重要新闻和产品更新。主要内容包括: 1. 谷歌发布了多模态语言模型Gemini,并在产品中开始使用。 2. 马斯克公司X开始向付费用户提供基于推特内容的AI助手Gork。 3. 开源公司Mistral AI发布了含8个7B参数专家模型的MoE框架Mixtral。 4. Meta发布了用于无障碍沟通的语音翻译模型组合。 5. 还汇总了一些其他公司和产品的动态,如Pika、美图等。 6. 推荐了一些AI辅助写作、思维导图、视频编辑等实用产品。 7. 汇报了一些研究文章,如图像生成、语言模型评估等方面的进展。

AIGC Weekly #63

AIGC Weekly #63

这篇周刊涵盖了上周AI领域的众多重要进展和有趣内容,对了解行业动态很有参考价值：上周的行业重大新闻,如OpenAI CTO Mira Murati介绍即将发布的Sora视频生成模型、苹果发布了30B参数的多模态大语言模型MM1、Cognition发布了首个称为Devin的AI程序员。一些新发布的有趣的AI产品推荐,包括Argil AI生成自己的克隆视频、Magnific AI发布的图片风格转换功能、Babel AI的软件构建Agents、MusePro的iPad AI辅助画图应用等。行业一些宝藏内容分享,如沃顿商学院给教师和学生的提示词库、Nvidia创始人Jensen Huang在斯坦福大学的访谈和演讲。一些优质的行业分析文章,包括大企业如何发挥AI价值、前100个生成式AI应用的数据分析、腾讯一篇关于大模型走势的十个判断、一篇关于如何从零开始训练大模型的分享等。一些前沿的AI相关研究,如斯坦福的Quiet-STAR让语言模型自学思考、谷歌的VLOGGER用于具体化身合成的多模态扩散、腾讯的ELLA为扩散模型配备LLM以增强语义对齐等。

AIGC Weekly #42

AIGC Weekly #42

1. 总结上周人工智能产品动态,包括Adobe Firefly推出image 2测试版本增加功能,Eleven Labs推出语音翻译工具Dubbing,谷歌图片搜索加入图片生成功能等。 2. 总结其他动态,如Open AI更新功能对所有Plus用户开放,Sam Altman宣布OpenAI年收入超13亿美元等。 3. 推荐13款新产品,如Podwise播客AI工具,Decode税务AI服务,Relay工作流自动化工具等,并给出每个产品的简要描述。 4. 收录7篇文章,如马丁关于Character.AI赛道指南,大型语言模型入门需要了解事项,以及OpenAI研究人员发现LLM表示真值新发现等。

AIGC Weekly #95

AIGC Weekly #95

本期AIGC周报涵盖了OpenAI的最新动态，包括SearchGPT的发布、完全体O1模型的泄露及其强大的多模态能力，以及OpenAI领导层的AMA总结。此外，Physical Intelligence推出了通用机器人策略模型π0，能够执行多种家务任务。Decart发布的Oasis模型实现了实时生成可操作的游戏内容。其他动态包括Runway的自定义镜头控制、Huggingface的新模型发布，以及Claude 3.5 Sonnet的最新进展。还推荐了一些AI学习工具和产品，旨在简化设计和学习过程。

AIGC Weekly #41 国庆特刊，量大管饱

AIGC Weekly #41 国庆特刊，量大管饱

总结了最近两周一些人工智能技术公司的动态: 1. OpenAI发布了GPT-4V,可以进行语音和图像交互。测试表现很好。 2. DALL-E 3测试表现也很强,可以生成高质量图片。 3. Google发布新一代手机和AI芯片,以及PhotosApp新的AI功能。 4. Arc浏览器增加了很多AI功能,如自动总结网页内容。 5. Meta推出应用内AI助手和生成贴纸等功能。 6. 还介绍了一些其他公司如Canva、Perplexity等的AI更新。 7. 文章最后推荐了一些AI产品,如Melon助手、Coda笔记软件等。

DEL