标签：– 语言模型安全性

OpenAI采用基于规则的奖励系统，通过AI反馈和自然语言规则提升语言模型安全性与RLHF优化

在大算力和大数据的支持下，基于统计的AI模型逐渐成为主流。然而，在此之前，基于规则的系统一直是语言模型的主要范式。基于规则的系统依赖于人类编写的规则来执行决策，尽管相对简单，但在某些特定领域（如航空和医疗）仍然非常重要，因为这些领域的安全性至关重要。近日，OpenAI安全团队的翁荔（Lilian Weng）等人发布了一项新研究成果，提出了一种基于规则的奖励机制，以提升语言模型的安全性。这一方法让人联想到科幻作家艾萨克·阿西莫夫提出的“机器人三定律”及其补充的“机器人第零定律”，这些定律本质上是用自然语言...

来源：

5个月前