科技魔方

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

大模型

2023年08月31日

  最近,北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程,总结了原理,代码以及踩坑与解决方案。

  在训练奖励模型时,作者使用Cohere提供的问答数据,构造了2万个优质答案和劣质答案的组合,通过排序任务训练奖励模型给答案打分。在强化学习阶段,作者采用Actor-Critic框架,分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

  在模型训练过程中,作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能,如归一化优势、增加策略熵、缩放奖励等。

  通过解决 above 问题,作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍,对相关研究具有很好的参考价值。

+1

来源:站长之家

延展资讯