20 Sep, 2024

不要“教授”，要激励是Self-play RL的关键？Open AI 研究员分享

Open AI 研究员放出了他去年的一次分享。可能刚好讲到了可能关于 o1 的核心训练思路。

歸藏

歸藏

不要“教授”，要激励是Self-play RL的关键？Open AI 研究员分享

🫣

Open AI 研究员Hyung Won Chung放出了他去年的一次分享。

可能刚好讲到了可能关于 o1 的核心训练思路。

他的逻辑是不要“教授”，要激励。

比如涉及 RL 时候常用来举例子的 AlphaGo。

不要告诉模型如何才能赢得棋局，而应该引导模型学习什么是好的走法。

核心内容

背景介绍：

传统的机器学习方法往往直接"教授"模型特定的技能或知识。
但在开发通用人工智能时，我们无法枚举所有需要的技能和知识。
计算能力正在指数级增长，为新的训练范式提供了可能。

"激励"而非"教授"的核心思想：

不是直接教授模型特定技能，而是创造一个环境或任务，激励模型自主学习。
这种方法让模型能够发展出更通用、更灵活的能力。

以大语言模型（LLM）为例：

LLM主要通过"下一个token预测"任务来训练。
这个简单的任务实际上是一个强大的激励机制。
模型为了更好地预测下一个token，被迫学习语言结构、世界知识、推理能力等。

隐式多任务学习：

预测下一个token可以看作是大规模的隐式多任务学习。
模型面对数万亿种不同的预测情况，被迫发展出通用的问题解决能力。

显式信号vs诱导激励：

显式信号：预测正确的下一个token。
诱导激励：发展出理解语言、推理、组合概念等通用能力。

激励结构的优势：

更具可扩展性：随着计算资源增加，模型可以学习更复杂的能力。
更通用：学到的能力不局限于特定任务，可以泛化到新情况。
能力涌现：某些复杂能力（如推理）会在模型达到一定规模时突然出现。

类比解释：

"给人一条鱼"：直接提供答案（硬编码）
"教人钓鱼"：教授特定技能
"教人喜欢吃鱼并使其饥饿"：创造激励，让人自主学习包括钓鱼在内的多种获取食物的方法

为什么现在这种方法变得可行：

计算能力的增长使得我们可以训练更大的模型。
大模型已经达到了能够响应复杂激励结构的"智能阈值"。

对未来AI研究的启示：

应该更多地关注设计有效的激励结构，而不是直接编码知识或技能。
需要重新思考如何评估和理解AI的能力，特别是那些可能在未来"涌现"的能力。

潜在的广泛应用：

这种思路不仅适用于语言模型，还可以应用于其他AI领域，如强化学习、机器人学等。

挑战与局限性：

设计有效的激励结构可能很困难，需要深入理解任务和期望的结果。
可能需要大量的计算资源和训练时间。
模型的行为可能不如直接教授那样可控或可预测。

总的来说，"不要教授，要激励"的逻辑代表了一种新的AI训练范式。

它强调创造环境和任务来引导AI自主学习，而不是直接灌输知识。这种方法虽然在短期内可能看起来效率较低，但在开发真正的通用人工智能方面可能更有前景。

演讲 PPT：https://www.youtube.com/watch?v=kYWUEV_e2ss&ab_channel=HyungWonChung

演讲视频：https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2885e521b53_0_0

OpenAI o1 传说中的strawberry终于来了

OpenAI o1 传说中的strawberry终于来了

前几天传的沸沸扬扬的 strawberry 草莓模型终于来了，OpenAI叫他o1。 **OpenAI o1** 可以通过复杂的任务进行推理，并解决比以前的科学、编码和数学模型更难的问题。

AIGC Weekly #63

AIGC Weekly #63

这篇周刊涵盖了上周AI领域的众多重要进展和有趣内容,对了解行业动态很有参考价值：上周的行业重大新闻,如OpenAI CTO Mira Murati介绍即将发布的Sora视频生成模型、苹果发布了30B参数的多模态大语言模型MM1、Cognition发布了首个称为Devin的AI程序员。一些新发布的有趣的AI产品推荐,包括Argil AI生成自己的克隆视频、Magnific AI发布的图片风格转换功能、Babel AI的软件构建Agents、MusePro的iPad AI辅助画图应用等。行业一些宝藏内容分享,如沃顿商学院给教师和学生的提示词库、Nvidia创始人Jensen Huang在斯坦福大学的访谈和演讲。一些优质的行业分析文章,包括大企业如何发挥AI价值、前100个生成式AI应用的数据分析、腾讯一篇关于大模型走势的十个判断、一篇关于如何从零开始训练大模型的分享等。一些前沿的AI相关研究,如斯坦福的Quiet-STAR让语言模型自学思考、谷歌的VLOGGER用于具体化身合成的多模态扩散、腾讯的ELLA为扩散模型配备LLM以增强语义对齐等。

AIGC Weekly #71

AIGC Weekly #71

上周一些重要的 AI 领域动态、产品推荐、研究成果和文章，主要包括Open AI 高强度预热发布会、Controlnet 作者敏神发布 IC-Light 光线融合生成项目、DeepSeek 发布 DeepSeek-V2 模型等。

AIGC Weekly #72 繁忙的一周

AIGC Weekly #72 繁忙的一周

这篇文章总结了最近一周AIGC领域的重要动态和研究进展,主要包括Open AI 的 GPT-4o 发布和 ChatGPT 演示、Google I/O 发布会的内容、要安全还是要发展：Open AI 宫斗第二季梳理。

AIGC Weekly #57

AIGC Weekly #57

介绍上周的主要AIGC新闻、产品以及推荐的内容：OpenAI关于开发者的更新和ChatGPT能力更新、谷歌新的视频模型、一些值得推荐的研究成果，AI摘要工具、AI应用构建工具等，一些上周的AIGC教程和文章。

AIGC Weekly #62 LLM的竞争白热化了

AIGC Weekly #62 LLM的竞争白热化了

本期AI周刊的主要内容包括: Anthropic发布了性能与GPT-4相当的Claude 3模型,包括Haiku、Sonnet和Opus三个版本,拥有更强的理解力、视觉能力和指令遵循能力。 Open AI主要处理跟马斯克的诉讼,公开了部分邮件记录,并宣布新的董事会结构。 Inflection发布号称世界最佳的Inflection-2.5语言模型,在编码、数学等方面表现出色。 Stability AI发布Stable Diffusion 3图像生成模型的技术报告,称其超越所有开源和商业模型。华为开源PixArt-Sigma模型,可直出4K分辨率图像。字节跳动发布ResAdapter,解决SD生成大图和非原生分辨率图片的质量问题。Meta用强化学习提升语言模型推理能力。 AI应用方面推荐了多个工具,如Simply News自动生成播客、WIX和Dora的智能网站构建工具、Dashtoon漫画创作等。精选文章讨论了从零开始训练语言模型的挑战、Claude 3的系统提示解析、AI在互动叙事中的应用、提示工程的未来等话题。

DEL