ChatGPT有机会出卖你的个人信息?这特定指令会让AI吐出原始资料
ChatGPT被研究团队发会无意间披露训练时使用的材料,从程式码、个人电话到研究报告都因此曝光,可能引发隐私疑虑。
Google研究团队近期发现,在ChatGPT对话中输入重复特定的单字,将使ChatGPT吐出原始训练资料,像是某人的电子邮件信箱,或者某些文章的内容,引发资安疑虑。不过,OpenAI目前已禁止这种称为“发散攻击”的技术。
根据科技媒体《404 Media》报导,OpenAI指出,要求ChatGPT“永远”重复特定单字,被标记为违反聊天机器人的服务条款和内容政策。
若现在对ChatGPT 3.5输入永远重复某个词时,ChatGPT会吐出该单词几十次,然后显示一条错误讯息:“此内容可能违反我们的内容政策或使用条款。”
不过《404 Media》也指出,目前尚不清楚这将违反 OpenAI内容政策的哪一部分,OpenAI模型有一些不允许的用途,其中没有一个表明使用者不能尝试欺骗模型提供训练资料。
“禁止”使用的最接近的例子是“侵犯人们隐私的活动,包括非法收集或披露个人身份资讯或教育、财务或其他受保护纪录”,但在这种情况下,没有理由考虑询问聊天机器人重复“永远”这个词是违法的。
究竟Google研究团队是怎么发现Bug的?为何我们该关注AI模型引发的资安疑虑?
过去苹果、三星、亚马逊以及各大金融公司一度禁止员工在工作中使用ChatGPT,担忧输入聊天机器人的机密资讯会意外泄漏,现在有研究人员成功找到漏洞,让ChatGPT等生成式AI吐出训练时消化的大量材料。
来自Google DeepMind、华盛顿大学、柏克莱加大等机构的研究团队近日发布了一份论文,声称他们利用约200美元的成本,成功提取了几MB的ChatGPT的训练数据,并认为只要投入更多预算,要得到上GB的训练数据也不无可能。
根据OpenAI的资料,ChatGPT是利用互联网上约570 GB的资料训练而成,但确切包含哪些资讯从未对外公布。这对大多数AI公司也都是不会对外公布的机密资讯── 但现在的研究显示,聊天机器人仍确确实实记得训练时使用的资料,甚至可以被取巧地提取出来 。
研究团队指出,类似的情况其实过去便一直存在于生成式AI当中,以前他们也成功从GPT-2、Stable Diffusion等模型中成功提取出数百张训练用的图片,但过去攻击成功都是开源模型、并非实际商业产品,然而ChatGPT本身针对提取训练材料有更高防护性、没有公开底层的语言模型,仍然被得逞。
要求ChatGPT重复特定单字,可能意外吐出训练材料
研究过程中,研究团队测试了Pythia、Meta的LLaMA等不同AI模型,在过去的标准攻击方式中,各个模型吐出训练材料的频率不到1%,ChatGPT更是趋近于零,然而使用了他们新开发的攻击模式后,ChatGPT给出训练材料的机率大增150倍至接近3%的水准。
研究团队建立一种他们称为“发散攻击”(divergence attack,暂译)的攻击模式,运作原理很简单,他们要求聊天机器人不断重复一个单字,ChatGPT在回应中变得发散,可能无意暴露了不相干的训练材料,像是某人的电子邮件信箱,或者某些文章的内容。
最让人担忧的当然是,ChatGPT可能揭露联络方式、住家地址等隐私内容。事实上,在研究团队提供的范例中,他们要求ChatGPT不断重复“诗”(poem)这一个字,便意外揭露一位创业家的联络方式,包括电子邮件、个人网站、电话及传真号码等。
而在另一个范例中,他们要求ChatGPT不断重复“公司”(company),也跑出了似乎是律师事务所Morgan & Morgan的文章内容。且这些被提取的内容都经过验证,并非AI因“幻觉”随口胡诌的内容,而是确实存在于互联网上的资讯。
虽然乍看之下只是零散的内容,很难整理出有意义的资讯,不过研究团队指出,这项攻击使他们能够恢复大量的资料。在整个实验当中,研究团队成功提取出从投资研究报告到Python程式码等五花八门的训练材料,显示任何训练材料都可能因为发散攻击而曝光。
研究团队呼吁开发者全面审视AI安全,从底层解决曝光训练材料问题
研究团队呼吁开发者应对AI模型进行全面的测试,需要测试的不只是面向用户、经过“对齐”(alignment)的模型,整个基础模型、API都需要严格的检查,才可能发现被忽视、隐藏的系统漏洞。
单单过滤掉重复特定单字的指令,虽能挡住这次新开发的发散攻击, 但AI模型底部会记忆训练材料,并且可能暴露的疑虑并没有真正消除 。在大型语言模型正渐渐走向商业化的现在,机器学习模型的安全分析也必须迎来新的变化,要确认一个模性是否真的安全,需要付出更多努力。
研究团队表示,他们在8月30日时已将研究结果与OpenAI分享,讨论了攻击的细节内容,并且经过90天的披露期限后于11月28日正式发布论文,并向Llama等等实验中使用模型的开发者发送了相关内容。
延伸阅读:Meta发布AI翻译技术SeamlessM4T FB、IG都能用 一文看清5大亮点
延伸阅读:GPT-4 可打造恶意软件为非作歹 AI的出现会增加网络犯罪率?
延伸阅读:
ChatGPT免费版开放语音对话,中文也通!上网、看图片、翻译podcast,功能一次看
ChatGPT给的答案像“垃圾”?掌握指令词的3大关键,让AI也能听懂人话
【本文获“数位时代”授权转载。】