Open AI 研究员Hyung Won Chung放出了他去年的一次分享。

可能刚好讲到了可能关于 o1 的核心训练思路。

他的逻辑是不要“教授”,要激励

比如涉及 RL 时候常用来举例子的 AlphaGo。

不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。

核心内容

背景介绍:

  • 传统的机器学习方法往往直接"教授"模型特定的技能或知识。
  • 但在开发通用人工智能时,我们无法枚举所有需要的技能和知识。
  • 计算能力正在指数级增长,为新的训练范式提供了可能。

"激励"而非"教授"的核心思想:

  • 不是直接教授模型特定技能,而是创造一个环境或任务,激励模型自主学习。
  • 这种方法让模型能够发展出更通用、更灵活的能力。

以大语言模型(LLM)为例:

  • LLM主要通过"下一个token预测"任务来训练。
  • 这个简单的任务实际上是一个强大的激励机制。
  • 模型为了更好地预测下一个token,被迫学习语言结构、世界知识、推理能力等。

隐式多任务学习:

  • 预测下一个token可以看作是大规模的隐式多任务学习。
  • 模型面对数万亿种不同的预测情况,被迫发展出通用的问题解决能力。

显式信号vs诱导激励:

  • 显式信号:预测正确的下一个token。
  • 诱导激励:发展出理解语言、推理、组合概念等通用能力。

激励结构的优势:

  • 更具可扩展性:随着计算资源增加,模型可以学习更复杂的能力。
  • 更通用:学到的能力不局限于特定任务,可以泛化到新情况。
  • 能力涌现:某些复杂能力(如推理)会在模型达到一定规模时突然出现。

类比解释:

  • "给人一条鱼":直接提供答案(硬编码)
  • "教人钓鱼":教授特定技能
  • "教人喜欢吃鱼并使其饥饿":创造激励,让人自主学习包括钓鱼在内的多种获取食物的方法

为什么现在这种方法变得可行:

  • 计算能力的增长使得我们可以训练更大的模型。
  • 大模型已经达到了能够响应复杂激励结构的"智能阈值"。

对未来AI研究的启示:

  • 应该更多地关注设计有效的激励结构,而不是直接编码知识或技能。
  • 需要重新思考如何评估和理解AI的能力,特别是那些可能在未来"涌现"的能力。

潜在的广泛应用:

  • 这种思路不仅适用于语言模型,还可以应用于其他AI领域,如强化学习、机器人学等。

挑战与局限性:

  • 设计有效的激励结构可能很困难,需要深入理解任务和期望的结果。
  • 可能需要大量的计算资源和训练时间。
  • 模型的行为可能不如直接教授那样可控或可预测。

总的来说,"不要教授,要激励"的逻辑代表了一种新的AI训练范式。

它强调创造环境和任务来引导AI自主学习,而不是直接灌输知识。这种方法虽然在短期内可能看起来效率较低,但在开发真正的通用人工智能方面可能更有前景。

演讲 PPT:https://www.youtube.com/watch?v=kYWUEV_e2ss&ab_channel=HyungWonChung

演讲视频:https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2885e521b53_0_0