科技魔方

OpenAI发布升级版ASR模型Whisper3,计划开放API

大模型

2023年11月07日

  在OpenAI的开发者日活动中,该人工智能初创公司发布了一系列开源模型,其中包括了升级版的自动语音识别(ASR)模型——Whisper3。这一模型具备多语言支持,可以将音频内容快速准确地转录成文本,并具备独特的时间戳功能,使其适用于制作字幕等应用。

  最初,Whisper模型主要针对英语应用,但随着时间的推移,它经过升级,已经支持多种语言,尽管具体支持的语言并未明确提及。该模型以宽松的许可协议在GitHub上开源,因此开发者可以轻松获取并使用它,被誉为目前最出色的转录工具之一。

  Whisper3的工作原理涉及将音频分段成30秒的片段,然后通过编码器和解码器将其转化为文本字幕。此外,该模型还具备语言识别功能,有助于实现多语言语音转录和翻译成英语。有趣的是,最初计划将Whisper模型与ChatGPT集成,使用户能够通过语音直接与聊天机器人交流,但后来OpenAI决定将该模型直接向公众开放。

  OpenAI之所以选择开源Whisper3,是为了为构建有用的语音处理应用和进一步的鲁棒语音处理研究提供基础。该模型经过了大规模数据集的训练,包括来自互联网的超过68万小时的数据,其中三分之一来自非英语来源。

  OpenAI计划未来将Whisper3的API向用户开放,这将为开发者和研究人员提供更多机会,以创造创新的语音处理应用,推动语音技术的发展。

+1

来源:站长之家

延展资讯