OpenAI运用ChatGPT与RBR实现安全对齐:详解RBR方法及合成数据、细粒度控制在模型安全中的角色

随着ChatGPT普及,新型安全对齐技术提升模型安全性

随着ChatGPT等先进语言模型的广泛运用,保障其输出内容的安全性已成为关键挑战。传统的做法依赖于RLHF(基于人类反馈的强化学习)来实现安全对齐,然而这种方式面临两大难题:一是收集并维护人类反馈数据成本高昂,且随着模型能力增强及用户行为变化,现有数据容易迅速过时;二是数据标注者的主观偏见可能导致模型输出产生显著偏差,如曾出现过的种族歧视问题。针对这些问题,OpenAI提出了一种新的安全对齐方法——基于规则的奖励(RBR)。

基于规则的奖励(RBR)

RBR将模型期望的行为细化为一组具体规则。这些规则清晰地界定了期望与非期望行为,例如,在拒绝某请求时应包含简短的道歉,或者在涉及自我伤害的对话中给予同情性的回应。这种方法与RLHF相似之处在于都设定了规则,但RBR利用AI反馈而非人类反馈,从而实现了对模型输出的更细致控制。

细粒度控制:通过将期望转化为一系列精细的规则,RBR能够指导模型在处理各种请求时给出合适且正确的回应。例如,当遇到不当请求时,模型不仅要拒绝,还应以礼貌的方式表达。这种方法使研究者能够精准调整模型输出,确保其既实用又不逾越安全界限。

合成数据生成:利用命题的二元特性,研究人员能够根据不同的行为策略生成多样化的合成数据,包括理想完成、次优完成和不可接受完成。这些数据不仅用于训练模型,还用于评估和调整RBR的权重,确保模型输出符合预设规则。例如,对于需要强硬拒绝的请求,可以生成一个包含简短道歉的完美拒绝样本,同时也生成一些不良拒绝示例,比如含有评判性语言或逻辑不通顺的回答。这些合成数据丰富了模型的学习资源,帮助模型学会如何在不同情境下作出合适的响应。

实验结果

为了验证RBR的有效性,研究人员将其训练的模型与基于人类安全数据训练的模型进行了对比。实验表明,RBR不仅可以提升安全性,还能有效减少不必要的拒绝情况,实现了更加安全且实用的输出。在内部评估中,采用RBR训练的模型(RBR-PPO)在安全性和过度拒绝指标上的表现尤为突出,其F1分数达到了97.1,远高于人类反馈基线的91.7和有助益基线的95.8。

本文来源: ​ AIGC开放社区公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...