深度学习技术的崛起显著影响了各个领域,将其影响扩展到不同领域。其中一个显著的应用是利用深度学习技术监测稀有鸟类的鸟鸣。随着移动应用程序和软件对于生态学家和普通公众更加可用,通过鸟鸣区分鸟类变得更加容易。然而,当识别软件遇到不熟悉的鸟类物种或者缺乏参考录音时,就会出现一个重要问题。
为了解决这个问题,加拿大蒙克顿大学的研究人员开发了ECOGEN,这是一种可以生成逼真鸟鸣的方法,旨在增强那些鸟类样本有限的物种录音。这些生成的逼真鸟鸣样本可以用于训练生态监测中使用的音频识别工具。
在音频合成过程中存在许多挑战,包括合成所需的大量样本。不同的格式用于处理音频文件,其中许多表示形式会导致信息丢失,从而使高质量音频样本的制作变得复杂。ECOGEN采用波形表示,记录时间域中的声音压力振幅,成为一种在不丢失信息的前提下保持信息完整性的最常见格式之一。
ECOGEN通过创建鸟鸣的新实例来改善人工智能模型。基本上,ECOGEN可以扩展对那些野外录音有限的物种的声音库,而无需伤害动物或进行额外的野外工作。
研究人员发现,将ECOGEN生成的合成鸟鸣样本添加到鸟鸣识别器中,平均提高了12%的鸟鸣分类准确度。主要研究人员之一,尼古拉斯·勒孔特博士强调了自动化工具(如声学监测)对追踪由动物种群全球波动引起的生物多样性变化的迫切需求。然而,目前用于声学监测物种识别的人工智能模型往往缺乏详尽的参考库。
研究人员强调,创造合成鸟鸣可以有助于保护濒危鸟类,提供有关它们的叫声、行为和栖息地偏好的宝贵见解。勒孔特博士表示,尽管ECOGEN是为鸟类开发的,但他们确信它可以应用于哺乳动物、鱼类、昆虫和两栖动物等其他类型的动物。
ECOGEN的运作方式是将鸟鸣录音转化为声谱图,即声音的可视化表示。随后,它基于这些声谱图生成新的人工智能图像,从而扩充了专门用于录音有限的稀有物种的数据集。然后,这些新生成的声谱图被转换回音频格式,用于训练鸟鸣识别模型。在这项研究中,研究人员使用了全球范围内包括264种不同物种的23,784个野生鸟类录音的数据集。