AI回复竟有60%以上是错误？外媒实测8款搜寻工具　最常犯这三大错

撰文：数位时代

出版：2025-04-05 12:00更新：2025-04-07 19:05

ChatGPT、Perplexity、Gemini、DeepSeek⋯高达6成AI工具都提供了错误资讯，且不要以为付费模型就很安全，错误答案可能更多。

重点一： AI搜寻工具普遍表现不佳，错误回答率高达60%以上。
重点二：不要以为付费AI模型就很安全，研究发现，这些高级模型提供的错误答案比免费版更有信心且更多。
重点三： AI搜寻工具常无视发布商的机器人排除协议，未正确引用原始内容。

研究发现，AI搜寻工具正迅速增加受欢迎程度，但效能却令人担忧。根据陶氏数位新闻研究中心（Tow Center for Digital Journalism）最新研究显示，市面上常见的8款主流AI聊天机器人在资讯检索测试中，超过60%的回答完全错误，其中马斯克（Elon Musk）的Grok 3更创下错误率高达94%的惊人纪录。这些工具正从网际互联网爬取和重新包装内容，但呈现方式却常常掩盖了严重的资讯品质问题。

AI回复竟有60%以上是错误？

AI搜寻错误率高得吓人

陶氏数位新闻研究中心是由哥伦比亚大学新闻学研究所成立，该中心的测试结果显示，目前最受欢迎的生成式AI搜寻工具表现不佳，整体而言超过6成的问题答案完全错误。测试涵盖8主流AI搜寻工具，包括ChatGPT搜寻、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search和Copilot。

在所有测试工具中，Perplexity表现最佳，但仍有37%的回答不正确；而表现最差的Grok 3则有高达94%的回答错误。更令人担忧的是，这些AI工具在提供错误答案时往往表现出极高的信心，很少使用如“可能”、“似乎”等词，也极少承认知识不足。ChatGPT在200个回应中，仅15次表示缺乏信心，且从未拒绝提供答案。

AI工具错误率.（陶氏数位新闻研究中心）

研究方法

该研究团队从20家新闻机构随机选取了200篇文章（每家10篇），确保每篇文章摘录的内容在传统Google搜寻中，都能在前三个结果中找到原始来源。然后，研究人员向每个AI搜寻工具提供这些摘录，要求识别对应文章的标题、原始发布来源、发布日期和网址。

研究人员根据三项属性：(1)正确文章、(2)正确发布来源和(3)正确网址，手动评估了聊天机器人的回应。按照这些参数，每个回应被标记为以下标签之一：完全正确、正确但不完整、部分不正确、完全不正确、未提供或爬虫被阻止。

AI搜寻常犯的几项错误

根据该研究，AI搜寻工具在实际使用中展现出多项严重问题，包括：

未能正确连结原始来源： AI聊天机器人经常错误引用文章。例如，DeepSeek在200次查询中有115次错误归因摘录来源。即使聊天机器人正确识别了文章，也常未能正确连结到原始来源，而是引导到Yahoo News或AOL等平台上的转载版本。

付费模型“更有自信”胡说八道：令人惊讶的是，付费版本如Perplexity Pro（每月20美元，约新台币639元）或Grok 3（每月40美元，约新台币1,278元）虽然比免费版答对了更多问题，但它们整体错误率反而更高，主要是因为它们倾向于提供明确但错误的答案，而非拒绝直接回答。

虚构或损坏的网址：超过一半来自Gemini和Grok 3的回应引用了虚构或损坏的网址，导致错误页面。Grok 3在200个提示中有154个引用导致错误页面，即使在正确识别文章时，它也经常连结到虚构的网址。

延伸阅读：生成式AI应用100强　ChatGPT霸榜挑战者出现　消费者最爱是这些（点击连结看全文）

+14

8款聊天机器人搜寻正确度评比

如下表，Perplexity Pro ($20/月) 表现还算不错，错误率约40%；然而 Grok 3 ($40/月) 的错误率高达94%，是所有测试中最高的。

（陶氏数位新闻研究中心）

研究中也发现，多数机器人无视发布者的爬虫限制，即使被封锁仍获取内容。例如，Perplexity Pro正确识别了近三分之一本应无权访问的90个摘录。

而就算有合作关系，AI也未必能100%准确识别其内容，像是《旧金山纪事报》（San Francisco Chronicle）允许OpenAI的爬虫，但ChatGPT只正确识别了10个分享摘录中的1个。

必须说明的是，“机器人排除协议”虽不具有法律约束力，但它是一种被广泛接受的标准，用于指示网站哪些部分应该被抓取，哪些部分不应该被抓取。

AI巨头们怎么说？

对于报告结果，研究中心指出，

“我们联系了本报告中提到的所有人工智慧公司征求意见，只有 OpenAI和微软做出了回应，但都没有回答我们的具体发现或问题。”

OpenAI指出：

“我们透过帮助每周4亿ChatGPT用户透过摘要、引用、清晰连结和归因发现优质内容来支持出版商和创作者。我们与合作伙伴合作，以提高内联引用的准确性并尊重出版商的偏好，包括透过管理robAI.txt中的OrobAI-Search来增强它们在搜寻结果。”

微软则表示：

“微软尊重robots.txt标准，并尊重那些不希望其网页内容被该公司的生成式 AI 模型使用的网站提供的指示。”

延伸阅读：OpenAI开放Deep Research功能　非Pro付费用户可使用但有这些限制（点击连结看全文）

+13

Google推AI模式搜索　Gemini 2.0替换蓝色链接　订阅服务收这价钱 Manus邀请码被炒至5万　AI通用Agent掀起革命　开源闭源决胜未来苹果AI陷入落后　生成式LLM Siri要到iOS 20才实现　能迎头赶上？Apple Intelligence即将支援中文　Vision Pro AI新玩法惊艳登场 Perplexity Deep Research低价高品质AI突围　更备免费版但有限制 AI将如何改变生活？从智慧家庭到出行　科技感满满且安全无忧