Meta利用视觉信息来优化3D音频模型，未来将用于AR/VR

　　我们知道，Meta为了给AR眼镜打造智能助手，专门开发了第一人称视觉模型和数据集。与此同时，该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手，同时结合视觉和声音数据来感知环境，可进一步增强智能助手的能力，比如模拟人类感知世界的方式，来理解声音在空间的传播方式。

285552517_521041373031850_6248224460722473825_n

　　Meta表示：在元宇宙社交、AR观影等多种场景中，声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求，Meta决定采用AI来实现高保真的音质，并与沉浸的空间逼真匹配。

　　为此，Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作，开发了三个专为AR/VR打造的声音合成AI模型：Visual Acoustic Matching Model(视听匹配模型)、Visually-Informed Dereverberation(基于视觉信息的抗混响模型)、VisualVoice(利用视听提示将对话和背景音区分)。它们特点是可对视频中人类对话和声音进行视听理解，并与3D空间定位进行匹配，实现沉浸的空间音频效果。

　　简单来讲，这种AI模型根据外观和声音来理解物理环境。我们知道，声音在不同的物理空间中听起来也会有不同，比如在山洞里你会听到自己说话的回声，而在音乐厅和客厅两种不同规模的空间中，声音传播效果也不相同。这是因为，声音传播路径受到空间结构、材料和表面纹理、距离等因素影响，因此听起来会有所不同。

　　一，Visual Acoustic Matching Model(视听匹配模型)

　　在这个模型中输入在任何场景录制的音频片段，以及一张目标场景的图像，便可以将录音片段与目标场景融合，音频听起来就像是在目标场景中录制的那样。比如，可以将洞穴中录制的音频与餐厅图像融合，输出的语音听起来就会像在餐厅中录制的那样。

　　通常在看一段视频时，如果视频的声音和视觉不匹配(不符合传统认知)，会造成不自然的体验，人可以轻易发现这种差异，并认为视频声音为后期配音。

　　利用声音模型，科研人员可模拟声音在房间中传播产生的脉冲，来重现空间的声学效果。但这种方式需要结合空间3D网格，来测定空间的几何结构、材料属性。在大多数情况下，这些信息并不是已知的，因此声学模型难以实现。

　　科研人员指出，也可以根据在特定空间中捕捉的音频，通过声音在目标空间中产生的混响，来预测声学特性，但缺点是智能获得有限的声音信息，因此模拟效果通常不够好。

　　为了解决上述问题，Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型，特点是可通过调整音频，来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型，它可以通过复合模式推理，将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外，AViTAR模型可利用任意网络视频，来进行自我监督训练，练习匹配声音和图像。

　　Meta为AViTAR创建了两个数据集，其中一个建立在开源AI视听平台SoundSpaces基础上，另一个数据集包含了29万个公开可用的英语对话视频(3到10秒片段)。据悉，SoundSpaces是Meta在2020年开源的AI平台，其特点是建立在虚拟仿真平台AI Habitat之上，可模拟高保真、逼真的声源，并插入到Replica、Matterport3D等开源的真实场景扫描环境中。

　　这两个数据集主要包含了室内场景中的对话，目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案，数据集中的视频拍摄也有要求，麦克风和摄像头在同一个位置，并且远离声源。

　　为了训练AI模型识别声音和场景不匹配，Meta科研人员还制作了一系列音画不匹配的随机合成视频，并加入噪声。

　　利用这些数据，科研人员验证了视听匹配模型的效果，结果发现该模型可成功将对话与目标图像场景融合，效果比传统的纯音频声学匹配方案更好。

　　二，Visually-Informed Dereverberation(基于视觉信息的抗混响模型)

　　和上一个模型相反，Visually-Informed Dereverberation(VIDA)专注于消除混响，比如去除声音在洞穴中传播产生的回声。该模型根据视听提示，来优化、筛选音频中的混响。在热闹的火车站场景中，该模型可以提取小提琴演奏的声音，并去除小提琴声与火车站场景交互而产生的回响，好处是可以让小提琴声音听起来更纯粹。

　　在AR场景重现时，更沉浸、纯粹的声音可以让第一人称观看体验更加保真。

　　我们知道，回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程，则被视为混响。混响、回声通常会降低音频质量，降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时，通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。

　　去除混响后，便可以增强声音的重点，帮助自然语言模型更好的识别对话，并生成更准确的字幕。

　　此前，人们通常直接处理音频来消除混响，但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频，Meta科研人员提出了搭配视觉分析的方案：VIDA，也就是说利用视觉数据来辅助混响消除。

　　VIDA模型基于视听数据来训练，可通过识别空间结构、材质和扬声器等线索，来消除混响。

　　三，VisualVoice(利用视听提示将对话和背景音区分)

　　VisualVoice模型利用视听提示，来区分对话和背景音，其好处是可以帮助人和AI更好的听清对话，从而提升多人VR社交的沟通效率、实时字幕效果等等。

　　Meta设想了一个未来场景，即人们通过AR眼镜以第一人称视角，重温沉浸的全息回忆，并获得保真的视觉和声音体验。或是在VR游戏中，空间音频可进一步增强沉浸感。

　　这个模型同时通过视听数据来分析对话，Meta认为，这项技术是改善人机感知的重要因素。

　　Meta指出，在复杂环境中，人类可以比AI更好的理解对话，这是因为人不止会用耳朵听，也会用眼睛辅助。举个例子，当你周围有人说话时，你可以用耳朵听到他的声音和声音来源，同时也可以用眼睛来定位这个说话人的具体位置。

　　因此，Meta AI决定开发一个同时模拟视觉和听觉感知的多模式对话模型，帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频，也能训练VisualVoice模型提取对话中的视听信息。

　　未来应用场景

　　Meta表示：利用这些智能的AI语音分割模型，未来虚拟助手可以随时随地听到你的指令，不管是在音乐会、热闹的聚会还是其他环境音量大的场景。

　　接下来，若想要为AR/VR构建更加沉浸的体验，将需要这种多模式的AI模型，才能模拟人类感知的方式，通过音频、视频、文本等信号来更好的理解周围环境。

　　为了继续优化AViTAR、VITA等模型，Meta未来将使用视频来训练AI捕捉空间声学特性。参考：fb

Meta利用视觉信息来优化3D音频模型，未来将用于AR/VR

推荐文章