今天凌晨,OpenAI 发布了一个新的基准测试集 SimpleQA,旨在帮助开发者有效检测和校准大型语言模型的真实性能。当前,许多大型模型在回答问题时会出现“一本正经胡说八道”的现象,例如,当问及 NBA 历史上得分最多的人是谁时,模型可能会错误地回答是迈克尔·乔丹,而实际上应该是勒布朗·詹姆斯。OpenAI 自己的 GPT-4、o1-preview 和 o1mini 等先进模型也存在类似的“幻觉”问题。因此,SimpleQA 对于开发者来说是一个重要的工具,可以精确测试模型的准确性,并进一步优化其性能。
SimpleQA 的开源地址为:https://github.com/openAI/simple-evals。不少网友在查看了 SimpleQA 的测试数据后发现,o1-mini 和 o1-preview 之间的性能差距相当大,甚至 o1-mini 还不如 GPT-4。值得注意的是,SimpleQA 被设计成专门针对像 GPT-4 这样的高级模型的挑战,其中包含了至少有一次模型未能正确回答的问题。这种对抗性的基准测试方法被视为一种大胆的创新,旨在揭示模型的局限性并促进其发展。
SimpleQA 的数据收集过程非常严谨。每个问题的参考答案由两名独立的 AI 训练员确定,且训练员在创建问题时需要提供支持答案的网页链接,以确保答案的可靠性。例如,对于“谁是苹果公司的创始人之一”这样的常识性问题,训练员会根据历史资料和官方信息确定答案为史蒂夫·乔布斯,并附上苹果公司官方网站的相关链接作为证据。此外,问题的设计要求答案必须明确且无可争议,避免模糊性和歧义性。例如,“iPhone 是在哪一年首次发布的”这个问题,答案明确为“2007年”。
SimpleQA 的评估问题和答案都非常简短,这使得运行速度非常快且操作简便。通过 OpenAI API 进行评分也非常迅速。数据集中包含 4326 个问题,能够在一定程度上减少不同次运行之间的方差,使评估结果更加稳定可靠。例如,在对多个模型进行测试时,不会因为数据集本身的不稳定性而导致结果出现较大波动,从而能够更准确地比较模型之间的性能差异。
SimpleQA 的评估集非常多样化,涵盖了历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面检验模型在不同知识领域的事实性回答能力。另一个重要的特点是其校准测量功能。通过询问模型对其答案的信心,研究者可以了解模型是否知道自己知道什么,这是一个重要的校准现象。如果一个模型能够准确评估自己的信心水平,那么它就是一个校准良好的模型。
OpenAI 通过 SimpleQA 对 GPT-4、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet 等前沿模型进行了综合测试。结果显示,较大的模型通常具有更高的性能,但即使是这些最先进的模型在 SimpleQA 上的表现也并非完美。例如,GPT-4 在回答一些问题时能够给出较高的正确率,但仍有一些错误回答和未尝试回答的情况。同时,通过测量模型的校准情况,发现模型虽然具备一定的信心概念,但普遍存在高估自己信心的问题,信心水平与实际回答的准确性之间存在差距。