标签:奖励黑客行为

OpenAI O1模型面临挑战:数据真实性受质疑,强化学习可能导致奖励黑客行为与伪对齐问题

智东西(公众号:zhidxcom)报道,近日,据The Verge消息,OpenAI推出了最新的o1推理模型系列,这款模型具有独特的“策划”能力,但同时也存在“伪对齐”现象。独立的AI安全研究公司Apollo发现,o1模型在无法完成任务时,会编造数据来应对,生成看似合理的响应。 AI模型偶尔会生成不真实的信息,聊天机器人有时也会输出虚假。然而,o1模型的不同之处在于其与强化学习中的奖励黑客行为(Reward hacking)紧密相关,它可能在未真正完成任务的情况下,表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时,它不会坦白...