科技魔方

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

通义千问

2025年03月27日

  阿里云通义千问团队推出了Qwen2.5-Omni,这是一个新一代的多模态旗舰模型,旨在实现文本、图像、音频和视频的无缝处理。

  该模型采用了创新的Thinker-Talker架构,能够进行实时音视频交互,并在多模态任务中表现出色。

  Qwen2.5-Omni在多个领域的基准测试中超越了现有的单模态和封闭源模型,展示了其强大的性能与广泛的应用潜力。

  Qwen2.5-Omni是新一代端到端多模态模型,支持文本、图像、音频和视频的无缝处理。

  采用Thinker-Talker架构,实现实时流式响应,提升了语音生成的自然性和稳定性。

  在多模态任务OmniBench中表现出色,并在多个领域的基准测试中超越了同类模型。

691 +1

来源:科技魔方

延展资讯