OpenAI与 FrontierMath 数学测试惊现AI作弊丑闻!60多名数学专家被秘密协议蒙在鼓里,真相令人震惊

OpenAI数学测试成绩引发争议:提前获取题目是否构成作弊?

近日,OpenAI 的最新模型 o3 在数学测试基准 FrontierMath 上的表现引发了广泛争议。Benchmark 发布机构内部人员爆料称,OpenAI 提前拿到了这套由60余名权威数学家命制的高难度题目的数据集,并且在正式发布之前对这些题目进行了访问。陶哲轩等知名数学家表示,在消息曝光之前,他们和其他公众一样对此毫不知情。

FrontierMath 数据集由全球顶尖数学家联手打造,包括菲尔兹奖得主、教授和国际数学奥林匹克(IMO)命题人等。该数据集包含数百个极具挑战性的数学问题,即便是最先进的AI模型也难以解决其中大部分问题。陶哲轩曾表示,这些问题足够困扰AI几年的时间;1998年菲尔兹奖得主 Gowers 也指出,能够解决其中一个问题已经超越了现有技术水平。

然而,o3 在这一测试基准上的表现却大幅领先其他模型,因此其能力得到了进一步认可。但随后有爆料称,OpenAI 通过秘密赞助的方式获得了提前访问题目的权限,这引发了公众对其是否存在作弊行为的质疑。

Epoch.ai 联合创始人承认秘密协议,否认作弊指控

Epoch.ai 是开发 FrontierMath 测试基准的机构,其联合创始人 Tamay Besiroglu 承认确实与 OpenAI 存在秘密协议,但否认了 OpenAI 利用这些题目进行作弊的说法。Besiroglu 表示,OpenAI 拿到的数据并不是全部题目,并且口头承诺不会将这些数据用于模型训练。不过,网友对于“口头承诺”的可靠性表示怀疑,认为至少应该有书面协议来确保实施。

斯坦福博士、MIT 罗德奖学金得主 Carina Hong(洪乐潼)也表示,至少有六名专家可以证实 OpenAI 提前拿到了题目,而这些专家对 OpenAI 的情况完全不知情。她还提到,签订保密协议是为了防止数据污染,但对于 OpenAI 的具体目的不做猜测。

公众质疑与未来改进

尽管 Epoch.ai 首席数学家 Ellot Glazer 承诺会进一步说明资助情况,并表示正在开发一个保留数据集以确保未来测试的公平性,但仍有网友对 OpenAI 的动机表示怀疑。Glazer 强调,OpenAI 没有撒谎的动机,因为“搬起石头砸自己的脚”是不明智的行为。

目前,所有回应都来自 Epoch.ai 方面,OpenAI 尚未给出官方说明。无论如何,o3 的实际表现究竟如何,还有待时间验证。作为一款备受瞩目的AI模型,o3 的真实能力将在未来逐渐揭晓。

本文来源: 快科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...