科技魔方

Kimi开源视觉语言模型Kimi-VL与Kimi-VL-Thinking 多项基准超越GPT-4o

更多动态

2025年04月14日

  Moonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-Thinking 两款视觉语言模型,展现出卓越的多模态理解与推理能力。

  这些模型采用轻量级的 MoE 架构,参数仅有30亿,却在多个基准测试中超越了 GPT-4o。Kimi-VL 系列在数学推理、智能体操作和高分辨率图像处理等方面表现突出,支持超长上下文理解,展现出广泛的应用潜力。

  Kimi-VL 和 Kimi-VL-Thinking 采用轻量级 MoE 架构,参数仅30亿,运行效率高。

  在 MathVision 和 ScreenSpot-Pro 测试中,Kimi-VL 分别取得36.8% 和34.5% 的优异成绩,展示强大的推理能力。

  支持高达128K tokens 的上下文输入,适用于长文档和视频分析,展现出广泛的应用潜力。

593 +1

来源:科技魔方

延展资讯