(映维网 2020年07月20日)Facebook人工智能团队日前介绍了一种由单个麦克风同时分离多达五种声音的方法。所述方法在多个语音源分离基准(包括具有挑战性的噪声和混响的基准测试)测试中优于以往的方法。利用WSJ0-2mix和WSJ0-3mix数据集,以及通过四个和五个共时扬声器的变体,模型在尺度不变信噪比(分离质量的常用度量)方面比当前最先进的模型提高了1.5 dB(分贝)以上。
相关论文:Voice separation with an unknown number of multiple speakers
为了建立所述的模型,团队使用了一种直接作用于原始音频波形的全新递归神经网络结构。以前最好的模型主要是利用遮罩和解码器来对每个说话人的声音进行分类。当扬声器数目较多或未知时,这类模型的性能会迅速下降。
与标准语音分离系统一样,Facebook人工智能团队的模型要求事先知道说话人的总数。但为了应对未知说话人数量所带来的挑战,研究人员构建了一个新的系统来自动检测说话人数量,并选择最相关的模型。
1. 工作原理
语音分离模型的主要目标是,当给定一个输入混合语音信号时,估计输入源并为每个说话人生成一个单独信道输出。
所述模型使用了一个将输入信号映射到一个潜在表示的编码器网络。团队应用一个由多个区块组成的语音分离网络,其中输入为潜在表示,输出为每个说话人的估计信号。以前的方法通常在执行分离时使用遮罩,但当遮罩未定义,并且在处理过程中可能丢失一定的信号信息时,问题就会出现。
研究人员通过置换不变训练来训练模型并利用多个损失函数直接优化信噪比。团队在每个分离区块后插入一个损失函数,从而进一步改进优化过程。最后,为了确保每个说话人一致地映射到特定的输出信道,Facebook使用预先训练的说话人识别模型来添加感知损失函数。
团队同时构建了一个处理未知数量说话人的分离的新系统。对于新系统,其主要是通过训练不同的模型来分离两个、三个、四个和五个说话人。研究人员将输入混合输入输入到设计为最多可容纳5个共时说话人的模型中,以便它能够检测到当前活动(非静止)信道的数量。然后,Facebook用一个训练模型重复同样的过程,并检查是否所有的输出信道都为活动。重复这个过程,直到所有信道都被激活,或者找到目标说话人数量最少的模型。
2. 意义
从多人对话中分离出单个语音的能力可以改善和增强我们通过各种应用实现的日常交流,例语音消息、数字助手和视频工具,以及AR/VR语音交互创新。它同时可以提高需要听力辅助的人群的体验,这样他们在拥挤嘈杂的环境中都能更清晰地听到其他人地声音,如聚会或餐厅等等。
除了分离不同的声音之外,这个新系统同时可以应用于从混合声音(如背景噪声)中分离其他类型的语音信号。另外,这项研究可以应用到音乐录音,改进以前从单一音频文件分离不同乐器的研究。Facebook表示,下一步将致力于改进模型的生成属性,直到它能够在现实世界条件中实现高性能为止。