标签:超级对齐

OpenAI最新力作:探索超级对齐理论,模型间验证者-证明者博弈提升安全性与可读性

OpenAI近期发布了一篇关于“超级对齐”研究的最终论文,提出了一种让大、小模型互相博弈以提升生成内容可读性的方法。该研究旨在在保持准确率的同时,使模型输出更易于人类理解。通过模拟多伦多大学的“证明者-验证者”博弈框架,OpenAI让大模型作为“证明者”,小模型作为“验证者”,二者在相互竞争中共同进步。这种方法使得大模型的输出变得更加易懂,且准确率没有显著下降,同时小模型的判断能力也得到提高。 论文作者之一Yining Chen认为,这种方式可能使未来的模型超越人类智慧。尽管超级对齐团队已解散,但这项研究仍引起热...

Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大

上海交通大学的生成式人工智能实验室(GAIR Lab)发布了一项创新的评估标准——BeHonest,用于全面衡量大语言模型的诚实性,从而促进安全透明的AI研发。在AI快速发展的时代,大模型的诚实性成为了一个至关重要的问题。不诚实的AI可能导致信息失真,误导用户,甚至产生安全隐患。BeHonest评估框架从自我认知、非欺骗性和一致性三个方面进行测试,涉及10个具体场景,涵盖了9个主流大模型,如GPT-4o和Llama3-70b。 评估结果显示,虽然大多数模型在回答已知问题上表现出色,但它们在承认未知和避免欺骗方面存在缺陷。模型的规模与...