微软近日扩展了其Phi-4系列语言模型,推出两款全新产品:Phi-4多模态和Phi-4迷你。Phi-4多模态是微软首款集成语音、视觉和文本处理的统一架构模型,参数量达56亿,在多项基准测试中表现优异,超越谷歌Gemini 2.0 Flash等先进模型。
在语音任务中,其自动语音识别和语音翻译能力领先专业模型WhisperV3;在视觉任务中,该模型在文档理解、图表识别等领域表现突出。
Phi-4迷你则专注于文本任务,参数量为38亿,在文本推理、数学计算等任务中超越多款大型语言模型。为确保安全性,微软邀请专家测试并优化模型,使其可跨平台部署,适用于低成本、低延迟场景。
目前,两款模型已在Azure AI Foundry等平台上线,为开发者提供高效AI技术支持,推动多模态和文本处理能力的进一步发展。