阿里云通义千问发布业界首个开源多模态推理模型

　　瑞财经AI 12月25日，阿里云通义千问正式发布了业界首个开源多模态推理模型QVQ-72B-Preview。这一模型的发布标志着人工智能领域取得了又一重大进展，它不仅是科技创新的体现，更是解决复杂科学问题方面的应用探索。

　　QVQ展现出超预期的视觉理解和推理能力，尤其在数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示，QVQ超越了此前的视觉理解模型“开源王者”Qwen2-VL，整体表现与“满血版”OpenAI o1、Claude3.5 Sonnet等推理模型相当。QVQ能够在解决这些领域难题时，给出类似人类甚至科学家的思考过程和准确答案。

　　QVQ是一个基于视觉进行深度思考推理的大模型。它不仅能感知视觉内容，还能据此作出更细致的分析推理。与传统模型不同，QVQ能够质疑自身假设，仔细审视推理过程的每一步，这使得其推理结果更加可靠。QVQ可以识别“梗图”内涵，看真实照片可以合理推断出物体个数及高度等信息。

　　目前，QVQ-72B-Preview已在魔搭社区和HuggingFace平台上开源，开发者可以直接上手体验。这一模型的发布进一步丰富了阿里云通义的AI产品线。据了解，此前阿里云通义发布的AI推理模型QwQ受到全球开发者热捧，一发布就登上HuggingFace模型趋势榜榜首。截至目前，通义千问Qwen的衍生模型数已突破7.8万个。

　　QVQ的推出为教育、科研、内容创作等领域的工作效率提升提供了新的可能。

阿里云通义千问发布业界首个开源多模态推理模型

延展资讯