o1满血版泄露!奥特曼剧透图像推理挑战,GPT-4解析奥数题细节

o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透

不小心还是故意的?

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

o1满血版泄露了!没想到,OpenAI还在说“今年一定”,不少网友已经率先体验到了(doge)。事情是这样的:有网友发现,OpenAI已经在ChatGPT官网上部署了完整版o1,大家都能直接使用!

最初发现此事的网友,测试确认泄露模型具有强大的图像推理能力。日志显示,该模型确实是o1本模。

于是,在OpenAI修复漏洞之前,网友们抓紧时间尽情体验了一番——

满血o1到底有多牛

与已发布的o1-preview、o1-mini相比,泄露的o1支持上传附件,这意味着可以测试其多模态能力。网友们直接上强度,将普特南数学竞赛的证明题截图发给满血o1。

题目如下:
对正整数n,有fn(x)=cos(x)cos(2x)cos(3x)…cos(nx)。找出最小的n,使得|fn‘’(0)|>2023。

满血o1思考了18秒后,给出了正确答案:18。

再来看一道更复杂的题目,虽然在识图上遇到了一点小问题,但最终还是做对了。

在如此惊艳的表现下,正确识别首张黑洞照片也不算什么了(doge)。

然而,并不是所有测试都顺利。例如,让大模型数图中的三角形数量时,出现了错误。

ID为anagh的网友进行了泄露模型和GPT-4的同屏对比。GPT-4迅速给出了错误答案19,而满血o1花了1分39秒,最终给出了不同的错误答案:29。正确答案是24。

这个bug现在已经修复了。不过,有趣的是,这次模型泄露持续了整整3个小时。

不小心还是故意的?

有网友犀利地指出,这不像是“不小心”,更像是“精心策划”的:

目的是为了让人们对即将发布的模型有一个预期。

不少网友赞同这一观点,认为奥特曼的目的是测试和炒作。

由于一切看起来已经准备就绪,有人猜测,o1完整版的正式上线时间可能在未来一周内。

值得注意的是,泄露事件后,奥特曼立即开始了宣传:

好家伙,已经开始吹捧o2了(还假装上错号……)。

至于为什么选择这个时间……

那当然是为了赶在Anthropic发布Claude Haiku 3.5之前搞点事(doge)。

参考链接:
1. https://x.com/legit_rumors/status/1852625385801859321
2. https://x.com/koltregaskes/status/1852657291469709626
3. https://x.com/anaghnairr/status/1852668741751919016

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...