微软发布对口型软件VASA-1 图片加语音即可生成逼真说话视频

　　由微软亚洲研究院开发的VASA-1项目，是一项前沿的人工智能技术，它能够将单一静态图像和一段语音音频转换为逼真的对话面部动画。这项技术不仅能够实现音频与唇部动作的精确同步，还能够捕捉并再现丰富的面部表情和自然的头部动作，极大地增强了生成视频的真实感和生动性。

　　主要功能与特点:

　　逼真的面部动画: VASA-1可以根据一段语音音频和单一静态图像生成逼真的对话面部视频，包括精确的唇部运动同步和复杂的面部表情及头部动作。

　　高度自然的头部动作: VASA-1能够生成包括点头和转头在内的自然头部运动，这些都是人类交流中常见的非语言行为。

　　实时视频生成: 利用NVIDIA RTX4090GPU，VASA-1能够实现高性能的视频生成。它支持在离线模式下以45fps生成512×512分辨率的视频，以及在线流模式下的40fps生成速度，前置延迟仅为170毫秒，适合实时应用。

　　泛化能力: 模型展现出强大的适应能力，即使面对与训练数据不同的音频或图像，如不同的语言或非常规的艺术照片，也能够有效工作。

　　支持多种语言: VASA-1不仅支持中文，还能处理多种语言的语音输入，甚至能够生成唱歌的动画。

　　解耦能力: 模型能够独立处理和控制人脸的不同动态特征，如嘴唇运动、表情、眼睛注视方向等，提供了高度的解耦和可控性。

　　生成的可控性: 通过引入条件信号，如眼睛注视方向、头部距离和情绪偏移，VASA-1增强了视频生成的可控性，允许更精细的调整和个性化的动画输出。

　　技术原理:

　　VASA-1项目利用了一系列先进的计算机视觉和机器学习技术，包括面部潜在空间构建、数据集处理、3D辅助表征、整体面部动态和头部动作生成、音频条件化的生成控制、以及实时生成支持等。这些技术的应用使得VASA-1能够生成与音频高度同步的、具有丰富表情和动作的逼真面部动画。

　　案例与资源:

　　微软亚洲研究院提供了VASA-1的项目演示和相关论文，以供有兴趣的研究人员和开发者进一步探索和学习。所有在演示中使用的肖像图像，除了蒙娜丽莎外，都是由StyleGAN2或DALL-E-3生成的虚拟、不存在的身份图像。