AI搜索引擎优化标题：揭秘ChatGPT与Perplexity背后的大语言模型错误率及哥伦比亚大学关于AI搜索工具准确率仅六成的研究成果

AI搜索引擎的准确性测试：哥伦比亚大学数字新闻研究中心的研究结果

据IT之家报道，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对八款AI搜索引擎进行了深入研究。这些引擎包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、Deepseek Search、Grok-2 Search、Grok-3 Search和Copilot。研究人员通过一系列严格的测试，评估了这些AI工具在处理新闻查询时的表现。

研究人员从20家知名新闻机构中随机挑选了200篇报道（每家10篇），确保这些文章在谷歌搜索中能排在前三位。然后，他们用相同的查询方式测试各AI搜索引擎，并记录它们是否正确引用了文章、新闻机构名称和原始链接。测试结果显示，除Perplexity及其付费版外，其他AI搜索引擎的表现都不尽如人意。

AI搜索引擎的错误率与“自信”问题

整体来看，AI搜索引擎提供的答案有60%是不准确的，而AI对于错误答案的“自信”反而加剧了问题。研究表明，大语言模型不仅会出错，还会以绝对肯定的语气陈述错误信息，甚至在被质疑时仍试图自圆其说。即使承认了错误，某些AI工具（如ChatGPT）仍可能在后续回答中继续编造。

这项研究的重要性在于，它用数据印证了外界多年来对AI可靠性的担忧。例如，ChatGPT Search虽然回答了所有200个新闻查询，但其“完全正确”的比例仅为28%，而“完全错误”的比例高达57%。相比之下，X旗下的Grok AI表现更为糟糕，尤其是Grok-3 Search，其错误率竟高达94%。

微软Copilot的表现与收费问题

微软的Copilot也存在明显问题。在200次查询中，Copilot有104次拒绝作答，剩下的96次中，仅有16次“完全正确”，14次“部分正确”，66次“完全错误”，总体错误率接近70%。尽管这些问题尚未得到开发公司的公开承认，用户仍然需要支付每月20至200美元（约合145至1449元人民币）的订阅费。

此外，付费版Perplexity Pro（20美元/月）和Grok-3 Search（40美元/月）虽然比免费版回答得更多，但错误率也更高。这引发了人们对AI工具可靠性和收费模式的质疑。

广告声明

文内含有的对外跳转链接（包括但不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文来源：