顶级AI认知能力在医学顶刊研究中输给老年人:大模型在蒙特利尔认知评估量表中的视觉空间能力和共情能力集体翻车

AI模型在认知测试中的表现引发深思

近期,医学顶刊《英国医学杂志》(The BMJ)发表了一项引人关注的研究,该研究使用蒙特利尔认知评估量表(MoCA)等工具来评估多个顶级AI模型的认知能力。结果显示,这些AI模型表现出类似于人类轻度认知障碍的症状,尤其是在视觉空间和执行功能方面。这项由以色列哈达萨医疗中心(Hadassah Medical Center)主导的研究引发了对AI能力及其未来应用的深入思考。

研究背景与方法

随着AI技术的迅猛发展,人们对其未来的潜力充满期待,但也存在诸多疑问。为了更好地理解AI的能力边界,研究人员选择了五种常见的大语言模型进行测试,包括OpenAI的ChatGPT 4、ChatGPT-4o+、谷歌的Gemini 1.0和1.5,以及Anthropic的Claude 3.5 Sonnet。测试涵盖了命名、注意力、语言、抽象思维等多个方面,以全面评估AI模型的认知水平。

测试结果与分析

测试结果显示,尽管部分AI模型如ChatGPT 4o达到了26分的及格线,但大多数模型的表现仍然低于正常水平。尤其是谷歌Gemini 1.0,仅获得了16分,显示出明显的认知缺陷。有趣的是,早期版本的AI模型表现更差,甚至出现了“健忘”现象,这与人类认知衰退的现象相似。

进一步分析发现,AI模型在涉及视觉空间和执行功能的任务中普遍表现不佳。例如,在连线测试和时钟绘制测试中,许多AI模型给出了错误的答案,部分错误模式甚至与某些类型的认知障碍患者相似。此外,Gemini模型在记忆测试中也表现出明显的“健忘”,无法记住之前给出的五个词的序列。

技术局限性与未来展望

从技术角度来看,AI模型基于复杂的神经网络架构,通过海量数据的学习来模拟人类语言行为。然而,这种架构在面对需要深度理解和灵活处理的认知任务时暴露出诸多缺陷。当前的训练数据主要集中在语言和符号处理上,而对空间关系的理解和多步骤任务的规划能力训练相对不足。

研究人员指出,AI模型虽然难以完成需要用视觉执行去抽象推理的任务,但在文本分析和抽象推理方面表现得非常出色。这表明,AI模型在不同领域的表现存在明显分化,未来的研究和开发应重点关注提升其共情能力和情境理解能力。

最后,研究团队强调,尽管AI模型在某些领域表现出色,但它们在视觉抽象和执行功能方面的不足使其难以完全取代人类医生。医疗不仅仅是一门技术,更是一门需要人文关怀和同理心的艺术。因此,AI更适合作为辅助工具而非决策者,帮助医生提高工作效率和准确性。

本文来源: iFeng科技【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...