清华大学与瑞莱智慧联合推出增强安全性大语言模型 RealSafe-R1

　　近日，清华大学与瑞莱智慧联合团队发布了一款经过深度优化的大语言模型 RealSafe-R1。该模型基于 DeepSeek R1 进行后训练，在确保性能稳定的基础上，显著提升了抵抗越狱攻击的能力。RealSafe-R1 的各尺寸模型及数据集将于一周后陆续开放下载。

　　研究团队表示，RealSafe-R1 系列大模型的安全性远超国际上知名的闭源大模型，如 Claude3.5 和 GPT-4o。其中，7B 和 32B 版本分别基于 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 后训练得到。

　　为了增强模型的安全性和推理能力，团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning)。通过三阶段的方法，STAIR 有效提升了模型在复杂安全对齐场景中的表现。实验结果显示，STAIR 在 StrongReject 数据集上的安全性得分显著提升，拒绝恶意问题的能力也大幅增强。此外，STAIR 在多个通用性能测试中保持甚至提高了模型的推理能力和鲁棒性。

清华大学与瑞莱智慧联合推出增强安全性大语言模型 RealSafe-R1

延展资讯