封面提示词在这里

上周精选✦

Open AI 动态汇总

Open AI说会连续12天每天在太平洋时间直播发布新东西,第一天晚上熬了一下,太拉垮了就是把一次发布会内容拆12次说,而且对模型的介绍相当少,周末还不播。

  • 发布 O1 的正式版,更快、更强大,更擅长编码更擅长编码、数学和写作,支持多模态,从社区反馈来看这次有很多人觉得O1完全版可以跟Claude 3.5掰手腕了,但是在编程的SWE基准测试上还是差Claude 3.5不少。
  • 发布ChatGPT Pro档位:所有模型无限访问可以使用O1 Pro,200美元一个月。
  • 发布 O1 Pro:在数学、科学和编码等挑战性机器学习基准测试中表现更好,在演示里看着非常强大,这个关于O1 Pro通过截图还原页面的案例很强
  • 发布基于O1的强化模型微调服务,调整 o1 以学习在自定义领域中以新方式进行推理,RFT比常规微调更好、更高效;只需几个例子就行,在生物化学、安全、法律和医疗保健这几个领域效果比较好。
    An image to describe post

亚马逊加入模型竞赛,发布Nova系列模型

亚马逊在给Anthropic追加了40亿投资之后还是推出了自己的一系列生成模型,看来吸取了微软的教训不能完全依赖三方公司模型。

发布 Amazon Nova 系列模型,包含覆盖视频、图片、文本的理解、生成和推理模型,具体有:

  • Amazon Nova Micro是一种纯文本模型,能够以极低的成本提供最低的延迟响应。
  • Amazon Nova Lite是一种成本非常低的多模式模型,处理图像、视频和文本输入的速度快如闪电。
  • Amazon Nova Pro是一种功能强大的多模态模型,具有针对各种任务的准确性、速度和成本的最佳组合。
  • Amazon Nova Premier,是亚马逊多模式模型中最有能力完成复杂推理任务的模型。
  • Amazon Nova Canvas ,一种最先进的图像生成模型。
  • Amazon Nova Reel ,最先进的视频生成模型。
    An image to describe post

其他模型发布汇总

在Open AI开始了12天发布之后,其他家也没闲着,纷纷发布自己的新版本模型,不过都没有大货都是常规更新,所以就放一起说了。

谷歌发布 Gemini-exp-1206

谷歌坚定了自己的刷榜事业,刚发布的模型又夺回了竞技场榜首。200万上下文长度,改进了编码能力。现在可以在 Google AI Studio 和 Gemini API 中免费使用。丛社区测试来看比他自己的前几个版本的编码能力有变强,但是还没有Open AI的O1和Claude 3.5强。

谷歌开源多模态模型PaliGemma2

PaliGemma2是Gemma 2 微调的多模态 LLM。有3B、10B、28B 参数,支持224px、448px、896px图片。PaliGemma 2 为图像生成详细的、上下文相关的提示。而且可以进行化学式识别、乐谱识别、空间推理和胸部 X 光报告生成。

阿里放出了Qwen2 VL 72B

阿里的多模态模型Qwen 2几个月前就发布了,不过当时没有开源最大的72B模型,前几天把72B模型也开源了,视频理解上非常能打,仅次于Gemini。SoTA 理解各种分辨率和比例的图像,理解20分钟以上的视频,可以操作手机、机器人等的智能体。

Mistral 开源 124B 超大多模态 LLM Pixtral Large

目前已经超过 Qwen 72B 变成 LLM 竞技场最强的开源模型。123B多模态解码器、1B参数视觉编码器,128K 上下文窗口:适合至少 30 个高分辨率图像,MathVista、DocVQA、VQAv2 等最新技术。

Meta发布Llama 3.3 70B

Meta也发布了Llama 3.3,基于RLHF等后训练技术的图片,现在Llama 3.3以70B的体量达到了405B的性能,虽然整体相较于GPT-4和Claude 3.5还差点,但是已经差的不多了。
An image to describe post

谷歌发布 Genie 2 游戏世界生成模型

前段时间的游戏实时生成模型都是基于单个游戏的。谷歌前几天发布这个 Genie 2 可能才算真正的游戏生成模型。太强大了,你能想到的都支持,而且支持很多互动和物理交互,比如你可以拿枪打爆炸药桶或者操控忍者跳起来打掉气球。具体特性有:

  • 可以智能地响应键盘上的按键所采取的操作
  • 可以从同一起始框架生成不同的轨迹
  • 可以记住曾经生成过的内容,具有空间上下文。
  • 可以在长达一分钟的时间里保持世界一致性
  • 可以创建不同风格的世界,比如第一人称或则卡通风格
  • 支持创建复杂的 3D 结构视觉场景
  • 支持模拟物理交互,气球爆炸、射击炸药桶等
  • 学习了如何为执行不同活动的各种类型的角色制作动画
  • 与其他智能体甚至和它们的复杂交互进行建模
  • 强大的物理特性模拟:流体、烟雾、重力、光照、反射
  • 支持从现实世界的图像进行生成
    An image to describe post