人工智能大语言模型在时间推理任务上的挑战:时钟识别与日历任务为何难倒AI?

(由多段落组成)

随着人工智能技术的飞速发展,AI 已经能够生成逼真的图像、创作小说,甚至预测蛋白质结构。然而,一项最新的研究发现,这些看似无所不能的 AI 在一项非常基础的任务上却频频出错——那就是读取时间。爱丁堡大学的研究团队测试了七款知名的多模态大语言模型,评估它们通过时钟或日历图像回答时间相关问题的能力。

这项研究将在 4 月正式发布,但目前已在科研共享平台 arXiv 上公开。研究表明,即使是当前最先进的大型语言模型,在处理这种基础任务时也表现不佳。研究人员指出:“从视觉输入中解读时间并进行推理的能力,对于许多实际应用至关重要,例如事件安排和自动驾驶系统等。”尽管多模态大语言模型(MLLMs)近年来取得了显著进展,但大多数研究仍集中在目标检测、图像描述和场景理解等领域,对时间推理的研究仍然不足。

参与测试的模型包括 OpenAI 的 GPT-4o 和 GPT-o1、谷歌 DeepMind 的 Gemini 2.0、Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama 3.2-11B-Vision-Instruct、阿里巴巴的 Qwen2-VL7B-Instruct,以及 ModelBest 的 MiniCPM-V-2.6。研究人员向这些模型展示了各种模拟时钟图片(包括带有罗马数字、不同表盘颜色或无指针的时钟)和过去十年的日历图片,并提出了诸如“图片中的时钟显示的时间是多少?”、“元旦是星期几?”以及“一年中的第 153 天是哪一天?”等问题。

研究结果显示,这些 AI 模型在读取模拟时钟时间方面的正确率不到 25%。无论是复杂设计的时钟还是简单的日历,这些模型的表现都不尽如人意。谷歌的 Gemini 2.0 在时钟测试中表现最佳,而 GPT-o1 在日历任务上的准确率达到了 80%,优于其他竞争对手。即便如此,最优秀的 AI 模型仍有 20% 的错误率。

爱丁堡大学信息学院的博士生 Rohit Saxena 表示:“大多数人从小就会看时间和日历,但我们的研究揭示了 AI 在执行这些对人类来说非常基础的任务时存在的明显差距。如果要将 AI 系统成功应用于对时间敏感的实际场景,例如日程安排、自动化和辅助技术,就必须解决这些问题。”

总的来说,尽管 AI 能够帮助我们完成许多复杂的任务,但在处理一些看似简单的问题时,它仍然存在明显的局限性。因此,目前来看,AI 可能还无法完全胜任需要精确时间感知的任务。

本文来源: 站长之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...