LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法

　　研究表明，大型预训练语言模型(LLM)，如GPT-3，具有出色的能力，可以理解和回答人类提出的问题，协助编码工作等。然而，它们常常生成与人类偏好不同的结果。

　　过去，研究人员试图通过收集有关人类偏好的信息来解决这个问题，然后通过使用强化学习或指令调整来调整先前训练的模型，从而需要一个微调阶段。调整冻结的LLM(尚未接受额外训练且不需要额外数据)更具吸引力。

　　最近，一组研究人员发现，未对齐的LLM可以通过包括自我评估和回溯机制的自我改进过程直接生成与人类偏好匹配的回复。出于AI安全性的考虑，他们引入了可回滚自动回归推理(RAIN)，这是一种独特的推理技术，使预训练的LLM能够评估其自动生成的文本，并使用评估结果来指导向后倒带和向前生成。

　　RAIN以其无需进一步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型通过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的指导，从而省去了反复调整初始查询的需求。

　　实验结果由GPT-4模型和人工评估员评估，体现了了RAIN的成功。例如，使用HH数据集，RAIN在保持LLaMA30B的有用性率不变的同时，与普通推理相比将其无害性率从82%提高到97%。

　　该团队表示，当 Vicuna33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时，RAIN 甚至通过将攻击成功率从94% 降低到19% 建立了新的防御基准。

　　RAIN在对齐大型语言模型(LLM)方面具有许多优势:

　　- 通用性:RAIN方法具有广泛的适用性，适用于各种语言生成任务。它与自回归推理范式完美契合，这是许多LLM的常规范式。这意味着RAIN高度可定制且用户友好，可以快速集成到大多数现有LLM中。

　　- 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络，与一些其他对齐策略(如RLHF)相比，其产生的最低内存开销与简单自回归推理相当。由于其简单的实现和高效的内存设计，RAIN是对齐冻结权重的LLM的现实选择，消除了资源密集型的微调过程。

　　- 无需学习:RAIN不依赖于任何类型的标记或未标记数据，也不依赖于人类注释。它以无需学习的方式运作，不需要大量信息或培训，因此在各种任务中显著提高了对齐性能，并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时，RAIN显著降低了攻击成功率，展示了其作为防御措施的潜力。

　　这项研究引入了RAIN作为一种调整LLM以满足人类偏好的技术，无需额外信息或繁琐的微调。这是通过允许LLM评估和改进其自身输出来实现的，最终产生更协调和安全的AI生成响应。