豆包大模型团队开源多语言代码修复基准 Multi-SWE-bench

首页 更多动态 正文: 豆包大模型团队开源多语言代码修复基准 Multi-SWE-bench; 更多动态

2025年04月10日

646
点赞; 　　豆包大模型团队正式宣布，首个面向多语言开发环境的代码修复评测基准 Multi-SWE-bench 已开源。

　　该数据集扩展了 SWE-bench 的能力，首次覆盖 Python 之外的 7 种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript)，构建了真实的跨语言代码修复任务。Multi-SWE-bench 包含 1,632 个实例，均来自 GitHub issue，并经过专业开发者审核，具备清晰问题描述与可复现测试环境。

　　其引入的任务难度分级机制，涵盖从简单修改到复杂多文件操作，旨在系统评估大模型的多语言泛化能力，推动自动编程技术向支持多语言、解决真实问题的通用智能体迈进。

647 +1; 豆包大模型豆包大模型开源代码; 来源：科技魔方