字节跳动开源Multi-SWE-bench 推动大模型代码智能升级

首页 更多动态 正文: 字节跳动开源Multi-SWE-bench 推动大模型代码智能升级; 更多动态

2025年04月10日

697
点赞; 　　字节跳动豆包大模型团队最近开源了Multi-SWE-bench，这是首个多语言代码修复基准数据集，旨在提升大模型在自动修Bug能力方面的评估。

　　相较于以往的SWE-bench，Multi-SWE-bench不仅覆盖了Python，还新增了Java、TypeScript等六种语言，构建了1632个真实任务，并引入了难度分级机制。

　　Multi-SWE-bench是首个多语言代码修复基准数据集，覆盖7种主流编程语言。

　　数据集包含1632个真实任务，经过严格筛选和人工验证，确保质量可靠。

　　实验显示大语言模型在Python修复上表现尚可，但在其他语言的修复率低于10%。

698 +1; 字节跳动开源大模型; 来源：科技魔方