陶哲轩提前实测满血版O1：具备出色提示词工程能力的数学研究助手

陶哲轩提前体验满血版o1：表现堪比研究生

早在今年8月，著名数学家陶哲轩就已经率先体验了OpenAI的满血版o1模型。这款模型的表现令人印象深刻，尤其是在处理复杂的数学问题方面。陶哲轩向o1提出了一个措辞模糊的数学问题，结果发现它竟然能成功识别出克莱姆定理，并给出了令人满意的答案。然而，陶哲轩也指出，尽管新模型比之前的版本有所改进，但仍会犯一些明显的错误，并没有展现出独立思考的能力。

陶哲轩的实测体验

陶哲轩进行了三轮测试，对比了o1与之前的模型。首先，他用了一个复杂的数学问题来测试o1，发现其表现比之前的ChatGPT更加有条理，并且成功找到了克莱姆定理。接着，他测试了o1在复杂分析研究生课程中的表现，发现虽然有所改进，但仍有一些不足之处。最后，陶哲轩要求o1将质数定理转化为Lean中的定理形式，发现模型很好地理解了任务，但在代码中出现了一些小错误。

大模型在研究中的应用

除了陶哲轩的个人体验外，许多研究人员也在使用大模型来辅助自己的研究工作。一位名为wenc的网友分享了自己使用GPT 4o的经验，表示这些模型能够输出非常有用的混合整数规划公式，极大地提高了工作效率。wenc认为，每月从ChatGPT获得的价值远超订阅费用。

陶哲轩回应争议

尽管大多数网友对大模型持积极态度，但仍有人对陶哲轩的评价表示质疑。陶哲轩在mathstodon上回应了这些争议，表示他在考虑一个具体的指标，即“助手能够在专家数学家的指导下，协助完成复杂数学研究项目中的具体任务”的程度。他认为未来几年内，大模型在数学领域的应用将会更加广泛。

提高提示词工程能力的重要性

网友们讨论得出一个重要结论：学会高效使用大模型能够显著节省时间。然而，每个人对大模型的价值感受不同，这主要取决于个人的提示词水平。因此，提升提示词工程能力变得尤为重要。

本文来源：

量子位【阅读原文】

# 每日AI快讯 # o1 # OpenAI # 提示词工程能力 # 数学研究 # 陶哲轩

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

陶哲轩提前实测满血版O1：具备出色提示词工程能力的数学研究助手

【微软推出Windows Agent Arena基准测试框架，评估AI代理在主流Windows应用中的卓越性能与运行效率】

国产人形机器人崭新突破：在伺服电机与灵巧手的完美协作下，多模态算法助力其实现复杂任务，不仅打破波士顿动力空翻专利，更能左手拧螺丝右手做咖啡拉花。

相关文章

暂无评论

AI最新资讯