陶哲轩提前实测满血版O1:具备出色提示词工程能力的数学研究助手

陶哲轩提前体验满血版o1:表现堪比研究生

早在今年8月,著名数学家陶哲轩就已经率先体验了OpenAI的满血版o1模型。这款模型的表现令人印象深刻,尤其是在处理复杂的数学问题方面。陶哲轩向o1提出了一个措辞模糊的数学问题,结果发现它竟然能成功识别出克莱姆定理,并给出了令人满意的答案。然而,陶哲轩也指出,尽管新模型比之前的版本有所改进,但仍会犯一些明显的错误,并没有展现出独立思考的能力。

陶哲轩的实测体验

陶哲轩进行了三轮测试,对比了o1与之前的模型。首先,他用了一个复杂的数学问题来测试o1,发现其表现比之前的ChatGPT更加有条理,并且成功找到了克莱姆定理。接着,他测试了o1在复杂分析研究生课程中的表现,发现虽然有所改进,但仍有一些不足之处。最后,陶哲轩要求o1将质数定理转化为Lean中的定理形式,发现模型很好地理解了任务,但在代码中出现了一些小错误。

大模型在研究中的应用

除了陶哲轩的个人体验外,许多研究人员也在使用大模型来辅助自己的研究工作。一位名为wenc的网友分享了自己使用GPT 4o的经验,表示这些模型能够输出非常有用的混合整数规划公式,极大地提高了工作效率。wenc认为,每月从ChatGPT获得的价值远超订阅费用。

陶哲轩回应争议

尽管大多数网友对大模型持积极态度,但仍有人对陶哲轩的评价表示质疑。陶哲轩在mathstodon上回应了这些争议,表示他在考虑一个具体的指标,即“助手能够在专家数学家的指导下,协助完成复杂数学研究项目中的具体任务”的程度。他认为未来几年内,大模型在数学领域的应用将会更加广泛。

提高提示词工程能力的重要性

网友们讨论得出一个重要结论:学会高效使用大模型能够显著节省时间。然而,每个人对大模型的价值感受不同,这主要取决于个人的提示词水平。因此,提升提示词工程能力变得尤为重要。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...