科技魔方

百川智能发布大模型Baichuan3 称中文评测超越GPT-4

更多动态

2024年01月29日

  百川智能于 1 月 29 日推出了拥有超过千亿参数的大型语言模型Baichuan3。该模型在多个公认的通用能力评估,如CMMLU、GAOKAO和AGI-Eval等,都展示了卓越的表现,特别是在中文任务上更是超过了GPT- 4 的水平。同时,该模型在数学和代码方面的评估,如MATH、HumanEval和MBPP等,也有着优秀的成绩,证明了Baichuan3 在自然语言处理和代码生成领域的强劲实力。

百川大模型,百川智能

  百川智能还表示,其在逻辑推理能力和专业性要求很高的MCMLE、MedExam、CMExam等权威医疗评估上的中文效果也超过了GPT-4,成为中文医疗任务中表现最好的大型模型。Baichuan3 还突破了“迭代式强化学习”技术,进一步增强了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现出色,领先于其他大型模型。

  为了保证在数千张GPU上高效且稳定地训练超千亿参数模型,百川智能同时优化了模型的训练稳定性和训练框架,并采用了“异步CheckPoint存储”机制,可以在不损失性能的情况下增加存储的频率,减少机器故障对训练任务的影响,使Baichuan3 的稳定训练时间达到一个月以上,故障恢复时间不超过 10 分钟。

  训练效率方面,百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的RoPE, SwiGLU计算算子;在数据并行中实现参数通信与计算的重叠,以及在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至CPU的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan3 的训练框架在性能方面相比业界主流框架提升超过30%。

+1

来源:站长之家

延展资讯