为了狙击Open AI开发者大会的大招,马斯克的 xAI 提前发布了他们的LLM以及与之搭配的聊天产品Grok。所以这里我整理了一下目前可以搜集到的所有信息来看一下马斯克这个产品的定位以及与Open AI竞争的路线和底气。

Grok 简介

鉴于马斯克强烈的星际殖民和科幻爱好,他将Grok定位为一款模仿《银河系漫游指南》的人工智能,几乎可以回答任何问题,它也会向你提建议帮你决定你要问什么问题。

Grok 的设计目的是用一点智慧来回答问题,并且具有叛逆性。比如问他一些可能有害的问题的时候它不但会拒绝回答还会嘲讽你。

Grok 的一个独特且基本的优势是它可以通过𝕏(Twitter)平台实时了解世界。它还可以回答大多数其他人工智能系统拒绝的尖锐问题。

Grok目前还是一个早期测试产品,他会在准备好之后优先向美国的X平台的Premium Plus用户提供。

Grok 的目标和愿景

xAI希望创建能够帮助人类追求理解和知识的人工智能工具。所以Grok的目标是:

  • 收集反馈并确保他们正在构建最大程度地惠益全人类的人工智能工具。他们认为设计对所有背景和政治观点的人都有用的人工智能工具非常重要。他们还希望根据法律赋予用户使用我们的人工智能工具的权力。
  • 赋予研究和创新能力:他们希望Grok能成为任何人的强大研究助手,帮助用户快速获取相关信息、处理数据并提出新的想法。

Grok 的应用层功能

xAI的一个团队成员发布了一些Grok聊天助手应用层面的一些信息。在模型内容之外Grok应用层面也充满了马斯克做事的风格。

首先Grok允许同时处理多项任务。可以运行多个并发对话,并在对话进行时在它们之间进行切换。
An image to describe post
可以对对话进行分支,以便更好地了解 Grok 的回复。回复树允许在各个分支之间来回切换。此外,还有 / 命令可 减少点击次数。

可以在 VS 代码编辑器中打开所有生成的代码片段。

可以在 Markdown 编辑器中打开 Grok 的回复,保存它,然后继续对话。这与上面展示的分支和分支树协同工作(ChatGPT输入的时候连换行都困难,体验太差了)。

同时在 Grok 图标上有个彩蛋可以切换为幽默模式。

Grok 模型的基本信息

在宣布xAI之后,他们训练了一个拥有33B参数的原型LLM(Grok-0)。这个早期模型在标准的语言模型基准测试中接近LLaMA 2(70B)的能力,但只使用了一半的训练资源。

在过去的两个月中,他们在推理和编码能力方面取得了显著的改进,最终开发出了Grok-1,这是一款先进的语言模型,具有更强大的性能,人工评估编码任务得分达到63.2%,MMLU得分达到73%。
An image to describe post
在这些基准测试中,Grok-1展现出了强大的结果,超过了其所属计算级别中的所有其他模型,包括ChatGPT-3.5和Inflection-1。它只被那些使用了大量训练数据和计算资源进行训练的模型所超越,比如GPT-4。

由于这些基准测试可以在网络上找到,他们不能排除我们的模型无意中是在这些基准测试上进行训练的,因此他们对模型(以及Claude-2和GPT-4)在2023年5月底发布的匈牙利国家高中数学期末考试中进行了手动评分,这是在我们收集数据集之后发布的。Grok以C(59%)的成绩通过了考试,而Claude-2获得了相同的成绩(55%),GPT-4以68%的成绩获得了B。

所有模型都在温度为0.1且相同的提示下进行评估。必须注意的是,他们没有为此评估进行任何调整。这个实验作为对我们的模型从未明确调整过的数据集进行的“现实生活”测试。

从上面这段描述来看老马的团队还是要脸的,比国内一些用测试题训练做开卷考试,完事还厚颜无耻的说超过GPT-4的强很多。
An image to describe post
同时根据模型卡的介绍初始的Grok-1具有8,192个Token的上下文长度,Grok-1发布版本所使用的训练数据来自互联网截至2023年第三季度的数据以及我们的AI导师提供的数据。

xAI所使用的工程技术

为了创建Grok,xAI基于Kubernetes、Rust和JAX构建了一个定制的训练和推理框架。

GPU的故障方式多种多样:制造缺陷、松动的连接、配置错误、降级的内存芯片、偶发的随机位翻转等等。在训练过程中,需要在数万个GPU之间进行计算同步,而由于规模的扩大,所有这些故障模式都变得更加频繁。

为了克服这些挑战,xAI采用了一套自定义的分布式系统,确保每一种故障都能立即被识别并自动处理。在xAI将最大化每瓦有用计算作为努力的重点。

在过去几个月中,xAI基础设施使能够将停机时间降至最低,并在硬件不可靠的情况下保持高模型浮点运算利用率(MFU)。

Rust已被证明是构建可扩展、可靠和易维护基础设施的理想选择。它提供高性能、丰富的生态系统,并防止了分布式系统中通常会遇到的大多数错误。考虑到我们团队规模较小,基础设施的可靠性至关重要,否则维护将会抑制创新。Rust让我们有信心,任何代码修改或重构都有可能产生可运行数月且需要最少监督的程序。

为了准备下一次模型能力的跃升,需要可靠地协调数万个加速器上的训练运行(数万张卡老马是真的豪啊),运行互联网规模的数据管道,并将新的能力和工具集成到Grok中。

xAI的研究

他们也介绍了一些目前正在关注的研究方向,从排序来看他们将监督学习放在了最前面。

  • 可扩展的工具辅助监督。人类反馈至关重要。然而,在处理冗长的代码或复杂的推理步骤时,提供一致准确的反馈可能具有挑战性。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤,并在必要时寻求人类反馈来协助可扩展的监督。我们的目标是在我们的模型的帮助下,最有效地利用我们的人工智能导师的时间。
  • 将正式验证与安全性、可靠性和基础结合起来。为了创建能够深入思考现实世界的AI系统,他们计划在较少歧义和更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要即时目标是为代码正确性提供正式保证,特别是关于AI安全的可验证方面。
  • 长上下文理解和检索。训练模型以高效地在特定上下文中发现有用的知识是打造真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。
  • 对抗性鲁棒性。对抗性示例表明,优化器可以轻易地利用人工智能系统的漏洞,无论是在训练还是服务期间,从而导致系统犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们特别关注提高LLMs、奖励模型和监控系统的鲁棒性。
  • 多模态能力。目前,Grok没有其他感官,比如视觉和听觉。为了更好地帮助用户,我们将为Grok配备这些不同的感官,以实现更广泛的应用,包括实时互动和协助。

Grok将会变成马斯克商业图谱的胶水吗

商业上很多人都不太看好马斯克收购Twitter的这个操作,而且收购后Twitter一落千丈的收入好像也证明了这一点,但是可能很多人都忽视了Twitter这一高质量信息平台的数据价值,尤其是在优质数据正在变成AI时代类似石油的资源的时候。

而这次Grok公布的可以实时从Twitter获取信息和知识这个特性我们也可以看到老马的一些打算。很期待看到Twitter的优质数据可以帮Grok获得多大的提升。

除了推特之外马斯克还提到要让特斯拉汽车的算力都接入他们的LLM模型推理。这样的话特斯拉就会拥有地球上最多的模型推理算力。
即使是未来由机器人驾驶出租车了,汽车依然每周只会运行1/3的时间。剩下的时间的算力都会用来做分布式的推理运算。
有点可怕,反过来想,手机电脑有可能也是这样(小米14的AI画图功能已经在本地运行了),未来大家花钱买老马的车,还得给老马挖矿。

另外LLM模型也可以帮助马斯克的机器人公司和自动驾驶系统获得更强大的能力。更别说星际殖民需要的智能助手了。

所以在看到Chat GPT的那一刻老马可能意识到了,大语言模型可能就是实现他人生梦想和终极目标的那一块最重要的拼图。