微软GAIA：能够从语音和单张肖像图片合成自然的会说话的头像视频

产品邦V大 · 发表于 2023-12-2 11:22

微软的这个项目厉害了！！

GAIA的：能够从语音和单张肖像图片合成自然的会说话的头像视频。

它甚至支持诸如“悲伤”、“张开嘴”或“惊讶”等文本提示，来指导视频生成。

GAIA还允许你精确控制虚拟人物的每个面部动作，比如微笑或惊讶的表情。

可以接受语音、视频或文字指令创建会说话的人物头像视频。

主要功能：

1、根据语音生成会说话的虚拟人物：如果你给GAIA一个语音录音，它可以创建一个虚拟人物的视频，这个人物的嘴唇和面部表情会跟着语音动。

2、根据视频生成会说话的虚拟人物：GAIA可以观察一个真人在视频里的动作，然后创建一个虚拟人物模仿这些动作。

3、控制虚拟人物的头部姿势：你可以告诉GAIA让虚拟人物的头部做出特定的动作，比如点头或摇头。

4、完全控制虚拟人物的表情：GAIA允许你精确控制虚拟人物的每个面部动作，比如微笑或惊讶的表情。

5、根据文字指令生成虚拟人物动作：你可以给GAIA一些文字指令，比如“请微笑”，它就会创建一个按照这些指令动作的虚拟人物视频

主要工作原理：

1.分离运动和外观表示：

•GAIA首先将每个视频帧分离成运动和外观两部分的表示。这意味着它可以区分哪些部分是因为说话而动（如嘴唇运动），哪些部分是保持不变的（如头发、眼睛的位置）。

2.使用变分自编码器（VAE）：

•VAE被用来编码视频帧中的这些分离表示，并从这些表示中重建原始帧。这个过程帮助模型学习如何准确地捕捉和再现人物的面部特征和表情。

3.基于语音的运动序列生成：

•扩散模型被优化以生成基于语音序列和参考肖像图片的运动序列。这意味着模型可以根据给定的语音输入（如一段对话）生成相应的面部运动。

4.在推理过程中的应用：

•在实际应用中，扩散模型接受输入的语音序列和参考肖像图片作为条件，并生成运动序列。然后，这些运动序列被解码成视频，展示虚拟头像的说话和表情动作。

5.控制和文本指令的应用：
•GAIA还允许通过编辑生成过程中的面部标记点来控制任意面部属性，或根据文本指令生成虚拟头像的视频剪辑。

项目及演示：https://microsoft.github.io/GAIA/
论文：https://arxiv.org/abs/2311.15230
GitHub：coming soon...

账号		自动登录	找回密码
密码			我要注册

微软GAIA：能够从语音和单张肖像图片合成自然的会说话的头像视频

相关帖子

浏览过的版块