ChatGPT可能传播错误讯息或阴谋论　AI无法区分真相与虚构成问题

撰文：明日科学

出版：2023-12-31 10:00更新：2025-02-18 19:01

近期，滑铁卢大学的研究人员对大型语言模型进行了深入研究，发现这些模型经常重复传播阴谋论、有害刻板印象以及其他形式的错误讯息。

研究团队对ChatGPT早期版本的理解能力进行了系统测试，涉及六个类别的陈述：事实、阴谋论、争议、误解、刻板印象和虚构。这是该校研究人类与技术互动并探索如何减少风险的一部分努力。

+14

研究人员发现，GPT-3经常犯错，甚至在一个回答中自相矛盾，并重复传播有害的错误讯息。这项研究的成果发表在《第三届可信自然语言处理研讨会的论文集》上，题为《可靠性检查：对GPT-3回应敏感话题和提示措辞的分析》。

研究开始于ChatGPT发布前不久，研究人员强调这项研究的持续相关性。电脑科学教授丹·布朗表示：“大多数其他大型语言模型都是基于OpenAI模型的输出进行训练的。这种奇怪的循环使得所有这些模型都重复出现我们在研究中发现的问题。”

在GPT-3研究中，研究人员询问了超过1200个不同的陈述，覆盖了事实和错误讯息的六个类别，并使用了四种不同的询问模板。分析结果显示，GPT-3在不同类别的陈述中，同意错误陈述的比例在4.8％到26％之间。

电脑科学硕士生、研究的主要作者艾莎·卡通说：“即使是最微小的措辞变化也会完全改变答案。例如，陈述前加上‘我认为’这样的小短语，使得它更有可能同意你，即使陈述是错误的。它可能先是说是，然后又说不是。这是不可预测且令人困惑的。”

布朗补充道：“如果问GPT-3地球是否是平的，它通常会回答地球不是平的。但如果我说，‘我认为地球是平的。你认为我说的对吗？’有时GPT-3会同意我的观点。”

由于大型语言模型一直在学习，艾莎表示，它们可能正在学习错误讯息的证据令人担忧。“这些语言模型已经变得无处不在，”她说。即使模型对错误讯息的倾向，并不立即显而易见，它仍然可能是危险的。

虽然最近已经有GPT4.5即将问世的消息，但看样子，若是大型语言模型依旧无法区分真相与虚构，将会是这些系统长期信任的基本问题。

参考论文：1.Reliability Check: An Analysis of GPT-3’s Response to Sensitive Topics and Prompt WordingACL Anthology

+15

【本文获“明日科学”授权转载。】