Meta 昨晚发布了Meta Movie Gen视频音频生成模型系列,其中的视频编辑模型和人物ID保持很有意思。

Movie Gen Video:30B 模型,单个文本提示生成高质量、高清晰度的图像和视频。

Movie Gen Audio:13B transformer模型,可以接受视频输入以及可选的文本提示用于可控性,生成与视频同步的高保真音频。

Personalized videos:使用生成或现有视频以及附带的文字说明作为输入,可以执行本地化编辑,如添加、删除或替换元素。

早上发现他们团队的视频生成模型负责人做了一个技术报告的论文导读,把重点讲的更清楚。

他们写的真的很细,国内几个团队估计抱着论文库库读呢。

这里挑几个自己觉得比较核心的点:

  • Meta Movie Gen 是一个纯粹的 Transformer 架构模型,不是DiT,还使用了流匹配 (flow matching) 技术。
  • 视频生成模型的自动评估完全不可用,他们全部依赖人类评估,花了大量精力将视频评估分解为多个独立的质量和对齐维度。
  • 数据质量至关重要!他们在论文中详细介绍了如何进行过滤和清理,可以仔细看看。
  • 消融实验中发现,流匹配(flow matching) 在质量和对齐方面优于扩散模型。它的使用也非常稳健。

全部解读

Meta Movie Gen 是一系列模型的集合,可以实现文本到视频生成、文本到图像生成、个性化、编辑和视频到音频转换。这里主要讨论视频生成的部分。

  • 扩大数据、计算和模型参数的规模非常重要(这似乎是显而易见的)。将这些与流匹配 (flow matching) 技术相结合,并转向一个简单的常用大语言模型 (LLM) 架构(Llama),最终产生了最先进的视频生成质量。

  • 文本到视频 (T2V)、个性化和编辑模型都采用相同的训练方法。在预训练阶段,首先进行文本到图像 (T2I) 训练,然后进行 T2V 训练。以此模型为基础,我们进行 T2V 后训练,并且还训练了个性化 T2V 和视频到视频 (V2V) 编辑的功能。
    An image to describe post

  • 在压缩的潜在空间上训练了一个 Transformer 模型,使用流匹配技术,并以文本为条件。使用了 Llama 架构(具体来说是 Llama3,有几处小改动)。

  • 首个将 Llama 架构用于媒体生成的团队。事实上,在论文中展示了这个 Llama 模型在 T2V 的质量和文本对齐方面明显优于 DiT。

  • Movie Gen 是一个拥有 300 亿参数的 Transformer 模型。我们的完整技术栈可以生成 1080p 分辨率的视频,支持不同的宽高比和同步音频,最长可达 16 秒,帧率为每秒 16 帧。

  • 这涉及到多长的序列?在上采样之前,模型生成 768 像素的分辨率,共 256 帧。通过自动编码器进行 8x8x8(高度 x 宽度 x 时间)的压缩,导致最大序列长度达到 73,000 个视频 tokens。

  • 为 T2V 模型设计了一个多阶段的训练方案。首先是 T2I 训练,然后是低分辨率(256 像素)训练,接着是高分辨率(768 像素)训练。最后是后训练阶段。曾尝试过联合训练 T2I 和 T2V,但这导致收敛速度明显变慢,质量也较差。

An image to describe post

  • 关于评估,文本到视频的评估是一个难题。自动评估指标效果不佳,与人类评估的相关性不高。因此,我们完全依赖人类评估。花了大量精力将视频评估分解为多个独立的质量和对齐维度。

An image to describe post

  • 结果如何?要么在我们的 1000 个提示评估集上与其他模型进行比较,要么使用它们网站上的视频(如 Sora)。我们计算统计显著性以确保评估的公平性和可靠性。

An image to describe post

  • Movie Gen 在整体质量和对齐方面显著优于 Sora,并且非常显著地优于 Gen3。在真实性和美学测试(评估照片真实感)方面,Movie Gen 在各个方面都显著胜出。
  • 流匹配技术!消融实验中发现,流匹配在质量和对齐方面优于扩散模型。它的使用也非常稳健。而且我们发现验证损失与人类评估相关——这一发现非常有价值!

An image to describe post

  • Llama 架构!在前面已经讨论过这个,但我们发现 Llama 在质量和文本对齐方面优于 DIT。我们期待社区中的其他研究者在媒体生成方面继续探索 Llama 的潜力!

An image to describe post

  • 数据质量至关重要!这可能不是什么新发现,但清理视频数据确实很困难。对于预训练,在论文中详细介绍了如何进行过滤和清理。对于后训练阶段,依赖自动和人工过滤相结合的方法。

An image to describe post

  • T2V 评估是一个巨大的挑战!仅仅使用 UCF 数据集上的 FVD (Fréchet Video Distance) 指标是不够的。此外,人类评估往往带有主观性。然而,我们表明,通过广泛的审核和详细的指标分解,可以使人类评估的方差非常低,得到可靠的信号!

An image to describe post


项目介绍页面:https://ai.meta.com/research/movie-gen/

论文技术报告:https://ai.meta.com/static-resource/movie-gen-research-paper

项目负责人解读:https://x.com/Andrew__Brown__/status/1842262328617672725

觉得内容不错的话希望可以来个点赞、再看、分享一键三连,谢谢!