标签:安全对齐

OpenAI运用ChatGPT与RBR实现安全对齐:详解RBR方法及合成数据、细粒度控制在模型安全中的角色

随着ChatGPT普及,新型安全对齐技术提升模型安全性 随着ChatGPT等先进语言模型的广泛运用,保障其输出内容的安全性已成为关键挑战。传统的做法依赖于RLHF(基于人类反馈的强化学习)来实现安全对齐,然而这种方式面临两大难题:一是收集并维护人类反馈数据成本高昂,且随着模型能力增强及用户行为变化,现有数据容易迅速过时;二是数据标注者的主观偏见可能导致模型输出产生显著偏差,如曾出现过的种族歧视问题。针对这些问题,OpenAI提出了一种新的安全对齐方法——基于规则的奖励(RBR)。 基于规则的奖励(RBR) RBR将...