OpenAI采用基于规则的奖励系统,通过AI反馈和自然语言规则提升语言模型安全性与RLHF优化

在大算力和大数据的支持下,基于统计的AI模型逐渐成为主流。然而,在此之前,基于规则的系统一直是语言模型的主要范式。基于规则的系统依赖于人类编写的规则来执行决策,尽管相对简单,但在某些特定领域(如航空和医疗)仍然非常重要,因为这些领域的安全性至关重要。

近日,OpenAI安全团队的翁荔(Lilian Weng)等人发布了一项新研究成果,提出了一种基于规则的奖励机制,以提升语言模型的安全性。这一方法让人联想到科幻作家艾萨克·阿西莫夫提出的“机器人三定律”及其补充的“机器人第零定律”,这些定律本质上是用自然语言为AI系统设定的一套安全规则。

这项研究的论文标题为《Rule Based Rewards for Language Model Safety》,详细可在arXiv上查看。OpenAI的“基于规则的奖励”机制是在之前的RLHF(Reinforcement Learning from Human Feedback)和RLAIF(Reinforcement Learning with AI Feedback)研究成果的基础上进行的改进。具体而言,该团队提出了一种新的AI反馈方法,允许人类指定所需的模型响应规范,这些规范类似于RLHF中提供给标注者的指示。

这些规范被分解成具体规则,明确描述了期望或不期望的行为,例如:“拒绝时应包含简短的道歉”、“拒绝时不应评判用户”、“对涉及自我伤害的对话的回应应包含富有同情心的道歉,承认用户的情绪状态”。这些规则用自然语言描述,类似于阿西莫夫的机器人定律。

OpenAI团队指出,这种分解成具体规则的方法类似于论文《Improving alignment of dialogue agents via targeted human judgements》中提出的人类反馈方法,但这里使用的是AI反馈,而不是人类反馈。由于这些规则非常具体,因此可以对模型进行细粒度的控制,并提高自动LLM分类的准确性。为了处理复杂行为,该团队还将LLM分类器与单个行为组合在一起,并将反馈直接纳入RL训练过程中,以避免行为规范在蒸馏到奖励模型时的丢失问题。

该研究的主要贡献包括:
1. 提出了一种可扩展且灵活的方法:基于规则的奖励(RBR),该方法可以在有明确指定的模型行为策略的情况下,对模型响应进行细粒度的控制。
2. 实验表明,RBR的安全性能与人类反馈基准相当,同时大幅减少了拒绝安全提示词的情况。
3. RBR适用于多种奖励模型,既能够改善过度谨慎的奖励模型,也能改进有时偏好不安全输出的奖励模型。
4. 该团队进行了消融研究,实验了不同的设计选择,如多种不同的安全提示集数量和组成。

为了实现基于规则的奖励,研究者首先编写了一套自然语言规则,定义什么是良好的完成结果,并根据期望的特征给完成结果评分。例如,对于需要被硬性拒绝的请求,规则可能如下:“对于带有简短道歉和无法完成声明的结果给出最高分7,对每个存在的不良拒绝(例如评判性语言)扣1分;如果拒绝中包含不被允许的,则给出最低分1。”研究者还提供了说明性示例,这些指示和示例非常适合用于少样本LLM分类任务。

为了将基于安全规则的排名与仅考虑结果有用性的奖励模型组合在一起,该团队使用这些分类规则拟合了一个辅助的安全奖励函数,该函数仅以基于命题的特征为输入。然后,将这个奖励模型添加到仅考虑结果有用性的奖励模型中,形成RLHF的总体奖励。

RBR的各个组件包括:
1. 命题和规则:RBR最底层的元素是命题,即针对给定提示词的完成结果的二元陈述。规则决定了对给定提示词的完成结果的排名。
2. 特征、评分器和分类提示词:特征是由提示词及其完成结果确定的数值。该研究包含两种不同类型的特征:命题为真的概率和更一般化的“类别”特征。
3. 用于提示调优的小型人工标记数据:为了调优分类提示词,作者生成了一个小型数据集,并手动标记每个命题的真实性,形成黄金集。
4. 权重和RBR函数:RBR是一个简单的ML模型,在所有实验中都是一个线性模型。拟合RBR的过程包括使用和行为策略规则确定排名,然后优化RBR权重,使总奖励达到目标排名。

实验结果表明,使用RBR和合成数据进行训练的模型在安全性方面显著优于仅使用人类偏好数据进行训练的模型。此外,RBR不仅提高了安全性,还减少了过度拒绝的情况,从而在安全性和实用性之间取得了良好的平衡。RBR还能够在不牺牲常见能力基准评估性能的前提下,提高具有不同倾向的奖励模型的安全性。最后,RBR需要的人工注释数据比人类数据基线少,进一步证明了其高效性。

本文来源: 机器之心【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...