科技魔方

阿里云通义千问发布业界首个开源多模态推理模型

通义千问

2024年12月26日

  瑞财经AI 12月25日,阿里云通义千问正式发布了业界首个开源多模态推理模型QVQ-72B-Preview。这一模型的发布标志着人工智能领域取得了又一重大进展,它不仅是科技创新的体现,更是解决复杂科学问题方面的应用探索。

  QVQ展现出超预期的视觉理解和推理能力,尤其在数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型“开源王者”Qwen2-VL,整体表现与“满血版”OpenAI o1、Claude3.5 Sonnet等推理模型相当。QVQ能够在解决这些领域难题时,给出类似人类甚至科学家的思考过程和准确答案。

  QVQ是一个基于视觉进行深度思考推理的大模型。它不仅能感知视觉内容,还能据此作出更细致的分析推理。与传统模型不同,QVQ能够质疑自身假设,仔细审视推理过程的每一步,这使得其推理结果更加可靠。QVQ可以识别“梗图”内涵,看真实照片可以合理推断出物体个数及高度等信息。

  目前,QVQ-72B-Preview已在魔搭社区和HuggingFace平台上开源,开发者可以直接上手体验。这一模型的发布进一步丰富了阿里云通义的AI产品线。据了解,此前阿里云通义发布的AI推理模型QwQ受到全球开发者热捧,一发布就登上HuggingFace模型趋势榜榜首。截至目前,通义千问Qwen的衍生模型数已突破7.8万个。

  QVQ的推出为教育、科研、内容创作等领域的工作效率提升提供了新的可能。

+1

来源:乐居财经

延展资讯