AI回复竟有60%以上是错误?外媒实测8款搜寻工具 最常犯这三大错

撰文: 数位时代
出版:更新:

ChatGPT、Perplexity、Gemini、DeepSeek⋯高达6成AI工具都提供了错误资讯,且不要以为付费模型就很安全,错误答案可能更多。

重点一: AI搜寻工具普遍表现不佳,错误回答率高达60%以上。
重点二: 不要以为付费AI模型就很安全,研究发现,这些高级模型提供的错误答案比免费版更有信心且更多。
重点三: AI搜寻工具常无视发布商的机器人排除协议,未正确引用原始内容。

研究发现,AI搜寻工具正迅速增加受欢迎程度,但效能却令人担忧。根据陶氏数位新闻研究中心(Tow Center for Digital Journalism)最新研究显示,市面上常见的8款主流AI聊天机器人在资讯检索测试中,超过60%的回答完全错误,其中马斯克(Elon Musk)的Grok 3更创下错误率高达94%的惊人纪录。这些工具正从网际互联网爬取和重新包装内容,但呈现方式却常常掩盖了严重的资讯品质问题。

AI回复竟有60%以上是错误?

+6

AI搜寻错误率高得吓人

陶氏数位新闻研究中心是由哥伦比亚大学新闻学研究所成立,该中心的测试结果显示,目前最受欢迎的生成式AI搜寻工具表现不佳,整体而言超过6成的问题答案完全错误。测试涵盖8主流AI搜寻工具,包括ChatGPT搜寻、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

在所有测试工具中,Perplexity表现最佳,但仍有37%的回答不正确;而表现最差的Grok 3则有高达94%的回答错误。更令人担忧的是,这些AI工具在提供错误答案时往往表现出极高的信心,很少使用如“可能”、“似乎”等词,也极少承认知识不足。ChatGPT在200个回应中,仅15次表示缺乏信心,且从未拒绝提供答案。

AI工具错误率.(陶氏数位新闻研究中心)

研究方法

该研究团队从20家新闻机构随机选取了200篇文章(每家10篇),确保每篇文章摘录的内容在传统Google搜寻中,都能在前三个结果中找到原始来源。然后,研究人员向每个AI搜寻工具提供这些摘录,要求识别对应文章的标题、原始发布来源、发布日期和网址。

研究人员根据三项属性:(1)正确文章、(2)正确发布来源和(3)正确网址,手动评估了聊天机器人的回应。按照这些参数,每个回应被标记为以下标签之一:完全正确、正确但不完整、部分不正确、完全不正确、未提供或爬虫被阻止。

AI搜寻常犯的几项错误

根据该研究,AI搜寻工具在实际使用中展现出多项严重问题,包括:

未能正确连结原始来源: AI聊天机器人经常错误引用文章。例如,DeepSeek在200次查询中有115次错误归因摘录来源。即使聊天机器人正确识别了文章,也常未能正确连结到原始来源,而是引导到Yahoo News或AOL等平台上的转载版本。

付费模型“更有自信”胡说八道: 令人惊讶的是,付费版本如Perplexity Pro(每月20美元,约新台币639元)或Grok 3(每月40美元,约新台币1,278元)虽然比免费版答对了更多问题,但它们整体错误率反而更高,主要是因为它们倾向于提供明确但错误的答案,而非拒绝直接回答。

虚构或损坏的网址: 超过一半来自Gemini和Grok 3的回应引用了虚构或损坏的网址,导致错误页面。Grok 3在200个提示中有154个引用导致错误页面,即使在正确识别文章时,它也经常连结到虚构的网址。

延伸阅读:生成式AI应用100强 ChatGPT霸榜挑战者出现 消费者最爱是这些(点击连结看全文)

+14

8款聊天机器人搜寻正确度评比

如下表,Perplexity Pro ($20/月) 表现还算不错,错误率约40%;然而 Grok 3 ($40/月) 的错误率高达94%,是所有测试中最高的。

(陶氏数位新闻研究中心)

研究中也发现,多数机器人无视发布者的爬虫限制,即使被封锁仍获取内容。例如,Perplexity Pro正确识别了近三分之一本应无权访问的90个摘录。

而就算有合作关系,AI也未必能100%准确识别其内容,像是《旧金山纪事报》(San Francisco Chronicle)允许OpenAI的爬虫,但ChatGPT只正确识别了10个分享摘录中的1个。

必须说明的是,“机器人排除协议”虽不具有法律约束力,但它是一种被广泛接受的标准,用于指示网站哪些部分应该被抓取,哪些部分不应该被抓取。

AI巨头们怎么说?

对于报告结果,研究中心指出,

“我们联系了本报告中提到的所有人工智慧公司征求意见,只有 OpenAI和微软做出了回应,但都没有回答我们的具体发现或问题。”

OpenAI指出:

“我们透过帮助每周4亿ChatGPT用户透过摘要、引用、清晰连结和归因发现优质内容来支持出版商和创作者。我们与合作伙伴合作,以提高内联引用的准确性并尊重出版商的偏好,包括透过管理robAI.txt中的OrobAI-Search来增强它们在搜寻结果。”

微软则表示:

“微软尊重robots.txt标准,并尊重那些不希望其网页内容被该公司的生成式 AI 模型使用的网站提供的指示。”

延伸阅读:OpenAI开放Deep Research功能 非Pro付费用户可使用但有这些限制(点击连结看全文)

+13

延伸阅读:

不怕AI抢工作!7大类职业成“铁饭碗”:工程、护理、资安⋯月薪上看10万元

Google Gemini推出免费照片编辑功能!Image Editing怎么用?4步骤教学一次懂

【本文获“数位时代”授权转载。】