字节跳动豆包大模型团队最近开源了Multi-SWE-bench,这是首个多语言代码修复基准数据集,旨在提升大模型在自动修Bug能力方面的评估。
相较于以往的SWE-bench,Multi-SWE-bench不仅覆盖了Python,还新增了Java、TypeScript等六种语言,构建了1632个真实任务,并引入了难度分级机制。
Multi-SWE-bench是首个多语言代码修复基准数据集,覆盖7种主流编程语言。
数据集包含1632个真实任务,经过严格筛选和人工验证,确保质量可靠。
实验显示大语言模型在Python修复上表现尚可,但在其他语言的修复率低于10%。