利用CriticGPT和RLHF,GPT-4模型自我批评实现显著提升!OpenAI前超级对齐团队公开新成果

在OpenAI的官方网站上,一篇名为《CriticGPT》的新论文低调发布,这是前任超级对齐团队留下的重要成果。CriticGPT基于GPT-4模型,但其设计目的是为了找出GPT-4的输出错误,实现自我批评和改进。随着GPT-5的发布日期未定,以及GPG-4o语音功能的延迟,OpenAI适时推出了CriticGPT,作为GPT-4的辅助工具。尽管CriticGPT同样利用GPT-4训练,却用来纠正GPT-4的代码错误,这种“自我闭环”的方式引发了讨论。尽管OpenAI尚未明确CriticGPT何时融入ChatGPT,但这篇论文揭示了模型自我提升的一种可能途径。

CriticGPT的训练采用了Reinforcement Learning from Human Feedback (RLHF)的变体,旨在克服RLHF的局限性。通过训练模型生成对ChatGPT输出的批评,以修正错误。训练过程中,先由人类在ChatGPT的回答中故意植入错误,CriticGPT随后生成批评意见,再由人类训练师评分。这种方法既依赖于RLHF,又试图超越它。CriticGPT的批评意见全面性、准确性以及避免幻觉现象的能力都经过了评估,结果显示CriticGPT在某些方面优于人类。然而,CriticGPT仍然存在幻觉问题,对于复杂任务的评估仍有局限。

总结来说,CriticGPT是OpenAI在模型自我监督和提升上的新尝试,它为RLHF训练提供了新的视角,有望帮助创建更安全、更高效的AI策略。未来的研究将聚焦于如何识别和纠正答案中分散的错误,以及减少幻觉现象。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...