豆包大模型团队正式宣布,首个面向多语言开发环境的代码修复评测基准 Multi-SWE-bench 已开源。
该数据集扩展了 SWE-bench 的能力,首次覆盖 Python 之外的 7 种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),构建了真实的跨语言代码修复任务。Multi-SWE-bench 包含 1,632 个实例,均来自 GitHub issue,并经过专业开发者审核,具备清晰问题描述与可复现测试环境。
其引入的任务难度分级机制,涵盖从简单修改到复杂多文件操作,旨在系统评估大模型的多语言泛化能力,推动自动编程技术向支持多语言、解决真实问题的通用智能体迈进。