昨晚 Runway 也推出了自己的图生视频功能,最近借着可灵免费的时间段大家估计也都玩了一下这些新的 DiT 视频生成模型。

目前这些视频生成模型主要的问题就是控制方式不够,其中一个就是面部表情和说话是嘴部的控制。

快手在发布可灵的时候还顺手开源了一个 LivePortrait 可以将人脸表情视频迁移到图片上生成对应图片的面部表情图片。

前几天他们发布了 V2 版本现在可以直接把表情视频迁移到带人脸的视频上了。我们的流程核心就是基于这个项目。

需要用的的工具有

  • 图片生成工具:Midjourney 或者 SD 都行。
  • AI 视频生成工具:推荐 Runway、可灵、luma 等;
  • 然后是Hedra这个工具,它可以只提供图片和文字生成人脸的说话视频;
  • Elevenlabs 这个工具可以通过文字生成说话的音频文件;
  • 最后是 LivePortrait ,这个需要通过 ComfyUI 来完成,我会详细讲解工作流中需要动的参数。

01 图片生成

图片生成这里没什么需要讲的。需要注意的是:

  • 人脸需要在画面占比足够大,足够清晰,不然模型没办法识别五官,建议用半身像级别的就可以。
  • 最好是正脸图片,画面中的人不要侧身或者侧脸。
  • 生成的图片可以微笑,但是最好不要大笑,就是露出非常多的牙齿,这样视频生成模型有可能一直大笑,表情迁移会出问题。

An image to describe post

02 生成音频

这里推荐使用 Elevenlabs( https://elevenlabs.io/ )来通过文字生成说话音频,目前是免费的,还有很多独特的声音可以挑选。

进入网站之后选择 Speech,输入自己想要生成的的文字,左下角选择声音点生成就行,然后在 History 里面找到自己生成的音频下载就行。
An image to describe post

03 生成说话面部视频

我们现在有声音和人物图片了就需要使用工具生成说话视频了,这里还是推荐 Hedra (https://www.hedra.com/)这个工具。

它可以通过文字或者音频加上图片生成人物说话的头像视频,不过问题是只有面部在动。

当然现在有了 LivePortrait 完全不是问题了,我们可以将生成的头像视频和已有视频融合。

  • 首先我们最好先调整一下音频的长度,5 秒左右最好,一般 AI 视频生成一段也就 5 秒。
  • 然后点击Improt audio导入刚才生成和调整过的音频。
  • 之后在 Character 位置上传你的图片,她会自动把人脸裁切出来
  • 之后点“Generate video”生成就可以了,这里注意 Hedra 未成年审核很严格,所以图片可以先试试。
  • 生成之后的说话视频可以下载下来备用
    An image to describe post

04 AI 视频生成

接下来我们要准备另一段素材,就是将我们生成的图片放到 Runway 和可灵里面生成视频。

这里的操作过程没啥需要讲的,上传图片输入提示词生成视频就行。

需要注意生成的视频不要有大幅度的转头和夸张的表情,比如大笑,不然表情融合后会很尴尬。
An image to describe post

05 LivePortrait 表情迁移

好了我们要开始最后一步了,将我们的所有素材也就是两段视频,也就是 Hedra 生成的和可灵生成的视频合并起来。

合并之前最好处理一下这两段视频,让他们的**时长和帧率都保持一致,**比如我的两段视频都是 30 帧每秒,总时长 5 秒钟,这个剪映就可以搞。

在 Comfyui 中做表情迁移我们会用到 kijai 的LivePortrait插件和他示例里面的工作流,那个原始工作流跟我们的需求不太一样,我做了一些改动,比如把限制的总帧率改到了 5 秒以上,声音来源改到表情视频上。

你可以关注公众号回复【表情】来获取工作流和我用到的素材

我们讲一下工作流需要调整的部分,插件安装和 Comfyui 安装我就不讲了,你也可以在 揽瑞星舟https://www.lanrui-ai.com/register?invitation_code=9778 )这个云服务上直接打开这个工作流,应该他们明天(240801)就会完成适配和插件安装,直接用就行,不需要自己装了。

首先是视频的上传位置,上面那个红框选择被迁移的视频(可灵生成的),下面的红框选择表情视频(Hedra 生成的)。
An image to describe post

然后点击右边的“添加提示词队列”你的可能是英文,反正位置一样。等待进度条走完就可以看到红框位置的是已经生成了。

然后在视频上右键选择“Save preview”就可以保存生成的视频了。

An image to describe post

除开插件的安装和 Comfyui 的部署的话其实很简单就点击三次就可以完成。

另外你也可以用实拍的的表情和说话视频来完成迁移,这样的话真实度更高效果更好,需要做的就是把你实拍的视频面部裁切成正方形视频就行,这个剪映也可以做到,最后效果是这样的:

06 素材和工作流获取

最后我们再强调一下素材和工作流的获取方式:

你可以关注公众号回复【表情】来获取工作流和我用到的素材

我们讲一下工作流需要调整的部分,插件安装和 Comfyui 安装我就不讲了,你也可以在揽瑞星舟(https://www.lanrui-ai.com/register?invitation_code=9778 )这个云服务上直接打开这个工作流,应该他们明天(240801)就会完成适配和插件安装。

流程探索和教程编写需要的时间很长,如果觉得还可以的话可以点个在看或者分享给你有需要的朋友🙏。