科技魔方

GPT-4o 级别!VITA-1.5:实时视觉与语音交互,1.5秒互动延迟

更多场景

2025年01月07日

  VITA-MLLM团队最近推出了VITA-1.5,这是对VITA-1.0的重大升级,旨在提升多模态交互的实时性和准确性。

  新版本支持英语和中文,互动延迟显著降低至1.5秒,用户体验大幅提升。VITA-1.5在多个基准测试中的性能也有显著提高,语音处理能力经过深度优化,ASR错误率降至7.5。

  互动延迟大幅降低至1.5秒,提升用户体验。

  多模态性能显著提高,基准测试平均性能从59.8提升至70.8。

  语音处理能力增强,ASR错误率降低至7.5,语音识别更准确。

+1

来源:科技魔方

延展资讯