北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型_科技魔方-中文AI大模型门户网站

　　最近，北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程，总结了原理，代码以及踩坑与解决方案。

　　在训练奖励模型时，作者使用Cohere提供的问答数据，构造了2万个优质答案和劣质答案的组合，通过排序任务训练奖励模型给答案打分。在强化学习阶段，作者采用Actor-Critic框架，分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

　　在模型训练过程中，作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能，如归一化优势、增加策略熵、缩放奖励等。

　　通过解决 above 问题，作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍，对相关研究具有很好的参考价值。

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型