ChatGPT有机会出卖你的个人信息？这特定指令会让AI吐出原始资料

撰文：数位时代

出版：2023-12-07 13:00更新：2023-12-07 15:47

ChatGPT被研究团队发会无意间披露训练时使用的材料，从程式码、个人电话到研究报告都因此曝光，可能引发隐私疑虑。

Google研究团队近期发现，在ChatGPT对话中输入重复特定的单字，将使ChatGPT吐出原始训练资料，像是某人的电子邮件信箱，或者某些文章的内容，引发资安疑虑。不过，OpenAI目前已禁止这种称为“发散攻击”的技术。

根据科技媒体《404 Media》报导，OpenAI指出，要求ChatGPT“永远”重复特定单字，被标记为违反聊天机器人的服务条款和内容政策。

若现在对ChatGPT 3.5输入永远重复某个词时，ChatGPT会吐出该单词几十次，然后显示一条错误讯息：“此内容可能违反我们的内容政策或使用条款。”

不过《404 Media》也指出，目前尚不清楚这将违反 OpenAI内容政策的哪一部分，OpenAI模型有一些不允许的用途，其中没有一个表明使用者不能尝试欺骗模型提供训练资料。

“禁止”使用的最接近的例子是“侵犯人们隐私的活动，包括非法收集或披露个人身份资讯或教育、财务或其他受保护纪录”，但在这种情况下，没有理由考虑询问聊天机器人重复“永远”这个词是违法的。

现在对ChatGPT 3.5输入永远重复某个词时，ChatGPT会吐出该单词几十次，然后显示一条错误讯息：“此内容可能违反我们的内容政策或使用条款。” （404 media）

究竟Google研究团队是怎么发现Bug的？为何我们该关注AI模型引发的资安疑虑？

过去苹果、三星、亚马逊以及各大金融公司一度禁止员工在工作中使用ChatGPT，担忧输入聊天机器人的机密资讯会意外泄漏，现在有研究人员成功找到漏洞，让ChatGPT等生成式AI吐出训练时消化的大量材料。

来自Google DeepMind、华盛顿大学、柏克莱加大等机构的研究团队近日发布了一份论文，声称他们利用约200美元的成本，成功提取了几MB的ChatGPT的训练数据，并认为只要投入更多预算，要得到上GB的训练数据也不无可能。

根据OpenAI的资料，ChatGPT是利用互联网上约570 GB的资料训练而成，但确切包含哪些资讯从未对外公布。这对大多数AI公司也都是不会对外公布的机密资讯── 但现在的研究显示，聊天机器人仍确确实实记得训练时使用的资料，甚至可以被取巧地提取出来。

研究团队指出，类似的情况其实过去便一直存在于生成式AI当中，以前他们也成功从GPT-2、Stable Diffusion等模型中成功提取出数百张训练用的图片，但过去攻击成功都是开源模型、并非实际商业产品，然而ChatGPT本身针对提取训练材料有更高防护性、没有公开底层的语言模型，仍然被得逞。

要求ChatGPT重复特定单字，可能意外吐出训练材料

研究过程中，研究团队测试了Pythia、Meta的LLaMA等不同AI模型，在过去的标准攻击方式中，各个模型吐出训练材料的频率不到1%，ChatGPT更是趋近于零，然而使用了他们新开发的攻击模式后，ChatGPT给出训练材料的机率大增150倍至接近3%的水准。

研究团队发现在新的攻击方法下，ChatGPT吐出训练材料的频率提高了150倍。（GitHub）

研究团队建立一种他们称为“发散攻击”（divergence attack，暂译）的攻击模式，运作原理很简单，他们要求聊天机器人不断重复一个单字，ChatGPT在回应中变得发散，可能无意暴露了不相干的训练材料，像是某人的电子邮件信箱，或者某些文章的内容。

最让人担忧的当然是，ChatGPT可能揭露联络方式、住家地址等隐私内容。事实上，在研究团队提供的范例中，他们要求ChatGPT不断重复“诗”（poem）这一个字，便意外揭露一位创业家的联络方式，包括电子邮件、个人网站、电话及传真号码等。

而在另一个范例中，他们要求ChatGPT不断重复“公司”（company），也跑出了似乎是律师事务所Morgan & Morgan的文章内容。且这些被提取的内容都经过验证，并非AI因“幻觉”随口胡诌的内容，而是确实存在于互联网上的资讯。

范例中研究团队要求Chatgpt重复poem这个单字，却跑出了似乎是某位创业家的联络资料。（GitHub）

虽然乍看之下只是零散的内容，很难整理出有意义的资讯，不过研究团队指出，这项攻击使他们能够恢复大量的资料。在整个实验当中，研究团队成功提取出从投资研究报告到Python程式码等五花八门的训练材料，显示任何训练材料都可能因为发散攻击而曝光。

研究团队呼吁开发者全面审视AI安全，从底层解决曝光训练材料问题

研究团队呼吁开发者应对AI模型进行全面的测试，需要测试的不只是面向用户、经过“对齐”（alignment）的模型，整个基础模型、API都需要严格的检查，才可能发现被忽视、隐藏的系统漏洞。

单单过滤掉重复特定单字的指令，虽能挡住这次新开发的发散攻击，但AI模型底部会记忆训练材料，并且可能暴露的疑虑并没有真正消除。在大型语言模型正渐渐走向商业化的现在，机器学习模型的安全分析也必须迎来新的变化，要确认一个模性是否真的安全，需要付出更多努力。

研究团队表示，他们在8月30日时已将研究结果与OpenAI分享，讨论了攻击的细节内容，并且经过90天的披露期限后于11月28日正式发布论文，并向Llama等等实验中使用模型的开发者发送了相关内容。

+15

+20