谷歌、卡内基梅隆大学和MultiOn的联合研究团队近日发表了一项关于合成数据在大型模型训练中的创新研究。随着ChatGPT等大模型的快速发展,高质量训练数据的需求激增。Epoch AI报告指出,全球现有约300万亿个高质量文本训练标记,但预计到2026年将被耗尽,合成数据因此成为关键替代方案。
研究团队探索了正向和负向两类合成数据。正向数据由高性能模型生成,提供正确的问题解决方案,而负向数据则包含已验证的错误步骤,帮助模型避免逻辑陷阱。通过直接偏好优化(DPO)方法,模型能够动态调整学习策略,显著提升推理能力。实验显示,经过合成数据训练的模型在数学推理任务上性能提升高达八倍,展现了合成数据在大模型优化中的巨大潜力。