新研究揭示DeepSeek弱点:频繁切换思路欠思考,最短答案往往就对

深度解析DeepSeek推理模型的弱点:频繁切换思路与欠思考现象

近年来,随着AI技术的迅猛发展,像DeepSeek和Qwen这样的推理大模型不断给人类带来惊喜。然而,最近的研究揭示了这些模型在处理高难度问题时的一个显著弱点——频繁切换解题思路,导致“欠思考”(Underthinking)现象。

国内外团队联合研究揭示问题

来自腾讯AI实验室、苏州大学和上海交通大学的研究团队对开源的DeepSeek-R1和Qwen QwQ系列模型进行了深入分析。研究表明,这些模型在遇到复杂问题时,常常表现出类似“三心二意”的行为,即频繁切换解题思路,而未能深入探索某一特定路径,最终导致答案错误。

具体表现及影响

通过对比正确和错误回答中的token使用量和思维切换次数,研究发现,类o1模型在错误回答中比正确回答多消耗了225%的token,原因在于思维切换频率增加了418%。这种无效的努力不仅浪费了计算资源,还显著降低了答案的正确率。尤其在解决数学竞赛题等复杂任务时,这一现象尤为明显。

数据集测试结果

为了系统地分析这一现象,研究团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上进行了实验。结果显示,超过70%的错误回答中至少包含一个正确的思路,但在超过50%的错误回答中,有10%以上的思路是正确的。例如,在一个例子中,模型识别出给定方程类似于椭圆方程,并启动了正确的解释,但未能深入探索这一合理思路,最终得出一个缺乏扩展COT过程支持的猜测答案。

量化评估指标

基于这些观察,研究人员提出了一个用于量化“欠思考”程度的指标(Underthinking Metric)。这个指标通过测量错误答案中的token使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的token数量与总token数量的比值。实验结果表明,所有测试的类o1模型都存在显著的思维不足问题。

改善方法:“思路切换惩罚机制”

简洁解码:提高准确率的新方法

UC Berkeley教授Alex Dimakis几乎同时分享了类似的观察,指出错误的答案往往更长,而正确的答案要短得多。基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。并行运行5次模型,从答案中选择tokens最少的。初步实验结果表示,简洁解码在AIME2024测试上能提高6%-7%的准确率,比Consensus Decoding更好也更快。

DeepSeek, 推理模型, 欠思考, 思维切换惩罚机制, 简洁解码

希望整理后的文章更符合SEO优化的要求,并且更加清晰易读。如果有任何进一步的需求或修改,请随时告知!

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...