AI搜索引擎的准确性测试:哥伦比亚大学数字新闻研究中心的研究结果
据IT之家报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款AI搜索引擎进行了深入研究。这些引擎包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、Deepseek Search、Grok-2 Search、Grok-3 Search和Copilot。研究人员通过一系列严格的测试,评估了这些AI工具在处理新闻查询时的表现。
研究人员从20家知名新闻机构中随机挑选了200篇报道(每家10篇),确保这些文章在谷歌搜索中能排在前三位。然后,他们用相同的查询方式测试各AI搜索引擎,并记录它们是否正确引用了文章、新闻机构名称和原始链接。测试结果显示,除Perplexity及其付费版外,其他AI搜索引擎的表现都不尽如人意。
AI搜索引擎的错误率与“自信”问题
整体来看,AI搜索引擎提供的答案有60%是不准确的,而AI对于错误答案的“自信”反而加剧了问题。研究表明,大语言模型不仅会出错,还会以绝对肯定的语气陈述错误信息,甚至在被质疑时仍试图自圆其说。即使承认了错误,某些AI工具(如ChatGPT)仍可能在后续回答中继续编造。
这项研究的重要性在于,它用数据印证了外界多年来对AI可靠性的担忧。例如,ChatGPT Search虽然回答了所有200个新闻查询,但其“完全正确”的比例仅为28%,而“完全错误”的比例高达57%。相比之下,X旗下的Grok AI表现更为糟糕,尤其是Grok-3 Search,其错误率竟高达94%。
微软Copilot的表现与收费问题
微软的Copilot也存在明显问题。在200次查询中,Copilot有104次拒绝作答,剩下的96次中,仅有16次“完全正确”,14次“部分正确”,66次“完全错误”,总体错误率接近70%。尽管这些问题尚未得到开发公司的公开承认,用户仍然需要支付每月20至200美元(约合145至1449元人民币)的订阅费。
此外,付费版Perplexity Pro(20美元/月)和Grok-3 Search(40美元/月)虽然比免费版回答得更多,但错误率也更高。这引发了人们对AI工具可靠性和收费模式的质疑。
广告声明
文内含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
本文来源: