标签：CriticGPT

利用CriticGPT和RLHF，GPT-4模型自我批评实现显著提升！OpenAI前超级对齐团队公开新成果

在OpenAI的官方网站上，一篇名为《CriticGPT》的新论文低调发布，这是前任超级对齐团队留下的重要成果。CriticGPT基于GPT-4模型，但其设计目的是为了找出GPT-4的输出错误，实现自我批评和改进。随着GPT-5的发布日期未定，以及GPG-4o语音功能的延迟，OpenAI适时推出了CriticGPT，作为GPT-4的辅助工具。尽管CriticGPT同样利用GPT-4训练，却用来纠正GPT-4的代码错误，这种“自我闭环”的方式引发了讨论。尽管OpenAI尚未明确CriticGPT何时融入ChatGPT，但这篇论文揭示了模型自我提升的一种可能途径。 CriticGPT的训练采用了Reinfo...

来源：

新智元公众号【阅读原文】
Tags：CriticGPT GPT-4 RLHF 模型提升自我批评

9个月前