科技魔方

字节跳动开源Multi-SWE-bench 推动大模型代码智能升级

更多动态

2025年04月10日

  字节跳动豆包大模型团队最近开源了Multi-SWE-bench,这是首个多语言代码修复基准数据集,旨在提升大模型在自动修Bug能力方面的评估。

  相较于以往的SWE-bench,Multi-SWE-bench不仅覆盖了Python,还新增了Java、TypeScript等六种语言,构建了1632个真实任务,并引入了难度分级机制。

  Multi-SWE-bench是首个多语言代码修复基准数据集,覆盖7种主流编程语言。

  数据集包含1632个真实任务,经过严格筛选和人工验证,确保质量可靠。

  实验显示大语言模型在Python修复上表现尚可,但在其他语言的修复率低于10%。

698 +1

来源:科技魔方

延展资讯