大模型游戏评测:17款大模型与八款棋牌游戏对决,o3-mini凭借出色推理能力胜出,DeepSeek R1因中间步骤失误落败,GameBoT见证谁是真正的棋艺王者?
第一段
在AI社区中,大模型玩棋牌游戏的风潮愈演愈烈。例如,国外知名博主让DeepSeek和ChatGPT下国际象棋的视频在YouTube上获得了百万播放量。此外,ARC Prize组织最近发布了一个贪吃蛇LLM评测基准SnakeBench。针对这一场景,来自香港大学、剑桥大学和北京大学的研究人员推出了一种更全面、客观可信的LLM评测基准:GameBoT。通过让大模型在8个游戏中相互竞争,GameBoT能够评估各主流大模型的推理能力。
第二段
传统的LLM基准测试面临两个主要挑战:性能饱和与数据污染。性能饱和指的是榜单分数已经被刷得很高,几乎没有进一步提升的空间。例如,Qwen2-Math-72B-Instruct在GSM8k上的准确率已达到96.7%。而数据污染则是由于语言模型在大规模网络语料库上进行预训练,可能会无意中记住这些基准测试中的测试实例。因此,LLM可能会获得虚高的性能分数。相比之下,通过游戏来评测正好具有挑战性,并能通过动态的游戏环境避免模型提前记住“试卷答案”。
第三段
相较于其他用游戏评测LLM的基准,GameBoT的独特之处在于不仅评估最终胜负,还评估LLM的中间思考过程是否正确。为实现细粒度分析,作者将每个游戏中的复杂决策过程分解为2-3个逻辑上关键的子问题。每个子问题都被设计为有唯一确定答案的,并让大模型在回答子问题的基础上给出最终决策。这种设计使得对LLM的推理能力进行更细粒度、更高可解释性的评估成为可能。
第四段
为了确保公平评估大语言模型学习和应用游戏策略的能力,研究人员设计了非常详细的教程级游戏提示(prompt)。提示包含三个结构化部分:<游戏规则>、<输入>和<输出>。其中,<输出>部分包含了详细的Chain-of-Thought,提供了人类专家设计的游戏策略,指导LLM通过三步框架(策略理解→子问题分解→策略应用)解决复杂问题。
第五段
在论文发布的版本中,作者评估了包括GPT-4o、Claude-35-Sonnet、Gemini-1.5-pro-preview等17个当时最领先的大模型。每两个模型在每个游戏上进行20轮相互对抗赛(10轮先手10轮后手)。随着新模型的发布,作者更新了对更强模型的评测,包括Gemini-2.0-flash-thinking、Gemini-2.0-pro-exp、O1-preview、Deepseek R1、O3-mini-high等。最终排名显示,尽管Gemini-2.0-flash-thinking在Chatbot Arena榜单上高居前三,但在GameBoT榜单上表现并不突出。Deepseek R1与O1-preview打成平手,稍逊于O3-mini-high。
第六段
通过对O3-mini和Deepseek R1的实战分析,发现O3-mini在井字棋中的表现较为智能。然而,R1的中间步骤得分意外较低,原因是尽管其最终决策表现良好,但思考过程非常繁冗,经常出现连续十几次“wait”然后重新思考的现象,时常无法按要求给出中间步骤的答案。
第七段
总的来说,O3-mini-high在游戏推理性能和中间步骤得分方面表现最强。R1的推理能力也很优秀,但对于复杂问题,生成的中间思考过程不易读或无法按提示要求给出答案。Gemini-2-flash-thinking也存在可控性较差的问题,综合游戏推理性能并未如Chatbot Arena所示那般优秀。尽管如此,O3-mini和R1的表现已经体现出一些智能,但它们依旧不够聪明——以Connect4为例,对于直接能连成四子的局面,有时会看不出来。
