今天,北大等机构宣布开源CodeShell-7B代码基座大模型和CodeShell-Chat代码助手,加上便捷的IDE插件,为编程提供强大支持。CodeShell-7B采用5000亿Tokens的冷启动训练,在评估基准上表现卓越,超越了竞争对手。
CodeShell-Chat是一款全能代码助手模型,支持对话、代码生成、补齐、注释和测试用例生成。团队还发布了支持VSCode和IntelliJ IDEA的IDE插件,提供专注和交互模式,提高开发效率。
CodeShell-7B采用高效的数据治理,经过5000亿Token的冷启动预训练,性能明显优于竞争模型,支持中英文和代码编解码。模型基于自采集的Github数据、Stack和StarCoder数据集,经过数据治理构建高质量的预训练数据。
此外,CodeShell-Chat在真实软件开发场景中进行高效微调,支持多任务代码对话和补齐。团队还开发了轻量本地部署工具,支持多种计算架构。
IDE插件支持VSCode和IntelliJ IDEA,提供专注和交互模式。在专注模式下,分析当前项目代码并提供代码提示和补全功能,提高编程效率。在交互模式下,通过特定的交互Prompt和用户输入,支持智能问答、代码解释和安全检测。
插件还提供自动添加注释、代码优化与审计、代码格式检查、性能评估和测试用例生成等功能,以提高代码质量和性能。
CodeShell团队还发布了代码助手能力的统一评估基准,并将其开源,加入到CodeShell的开源生态中。这一举措将进一步提高编程的效率和质量,为开发者提供更多工具和支持。CodeShell的开源项目将有望改善编程体验,让代码编写更加高效和便捷。