【科技.未来】Deepfake假得迫真 深度造假模糊真相什么才可信?

撰文: 孔祥威
出版:更新:

去年末,电影《神奇女侠》主角Gal Gadot成为了人工智能合成色情片的“主角”,让大众见识到“深度学习”(deep learning)原来可以是“深度造假”(deepfake)。随着技术“假”得愈来愈真,一些影视业者开始以此作艺术创作。在假新闻透过社交媒体迅速散播的当下,不少学者担心deepfake会进一步模糊真相,破坏社会秩序。

“我们正步进一个新时代,敌人似乎可以令任何人在任何时间说任何话,即使他们从来不会说出那种话。”西装笔挺的美国前总统奥巴马坐在椅子上,对着镜头发表演说。

然而,容貌、表情、声音都看似奥巴马,演说内容却愈来愈不对劲:“例如他们可以叫我说……特朗普总统是彻头彻尾的蠢材。我从来不会这样说,至少在公开场合上。但有些人会,例如Jordan Peele。”此时画面分成左右两半,右方冒出一名黑人,与左方的奥巴马口形一致地说:“这是危险的时代,我们要更加警觉,不要乱信互联网上所看到的,要信任可靠的新闻来源。这听起来很基本,但关乎我们可以生存,还是步向一塌糊涂的反乌托邦。保持清醒吧,婊子们。”

造假技术不再高深

这是BuzzFeed与演员Jordan Peele 4月时在YouTube发布、以FakeApp制成的“深度造假”影片。深度学习技术一直被视为只为人工智能研究社群所用,直至2017年末,一个网民以“Deepfakes”为名,在人气论坛Reddit上发布了伪造的色情影片,把Gal Godot的样貌“换”到色情片女演员身上,几可乱真,其他知名受害女星还有Scarlett Johansson、Taylor Swift等。

自此,deepfake就代表了利用人工智能自动生成、几可乱真、或许立心不良的伪造影片。这些影片和贴文虽然被Reddit和色情片网站PornHub屏蔽下架,但Deepfakes还发布了生成deepfake的软件FakeApp,人人都可利用网上资源制造想要的deepfake。若嫌自己电脑太慢,坊间也有多间收费云端运算服务可代劳。

Gal Gadot被人用deepfake技术合成为色情片主角。(资料图片/视觉中国)

Deepfake是一系列造假技术的统称,例如换脸、像傀儡般的同步动作、伪造声带、唇形同步等。利用“生成对抗网络”(Generative Adversarial Network, GAN)还可制造更逼真的deepfake。这种深度学习技术由Google Brain研究员Ian Goodfellow在2014年发明,原意是利用算法从现有数据中产生更多新数据。例如利用数以千幅奥巴马的照片合成出不重复、新的奥巴马照片。这项技术也可用在声音上。

GAN一般利用两个深度学习网络互相训练,其一为产生者(generator),不断产生deepfake影像,由作为鉴别者(discriminator)的另一网络判断真伪,以生成愈来愈像真的影像。GAN不仅可以“换面”,甚至可生成整个场景,例如把日转为夜。

哪一个特雷莎·梅是真的?还是两个都是假的?(ABC网页截图)

想知道deepfakes是否到了肉眼看不出的程度,可到澳大利亚广播公司(ABC)本年九月开设的专页,将有更多测试可挑战眼力。

科技进步让GAN和deepfake得以普及和兴起。美国加州大学柏克莱分校(UC Berkeley)博士生Deepak Pathak忆述:“在1999年,即电影《廿二世纪杀人网络》(The Matrix)上映那年,已经有deepfake的概念,但当时的电脑运算实在太慢。现时电脑很快,图像处理器(GPU)很先进。”

研究肢体侦测技术、同样是博士生的Angjoo Kanazawa补充:“现时所有相关资源都是开源的。”“这是好事,因为我们希望研究成果可以复制。结果,高中生和大学生都能轻易掌控这些程式码的运行。” Pathak说。

图像处理器技术进步迅速,促进人工智能发展。图为去年Nvidia GPU技术大会上,一家厂商展示人脸辨识保安系统。(资料图片/视觉中国)

家用电脑运算能力大幅提升的同时,也得到另一趋势配合:大量照片和影片上传到互联网。加州大学柏克莱分校电脑科学家Alexei A. Efros回想,在本世纪初,电脑图像可说陷于“数据荒”,即使当时3D模拟技术已足以生成像真的景像,但当中的城市、室内环境、地形等都是空白或毫无生命的,要够真的话就需要“数据、数据和数据”,我们每天大量记录的日常生活就是最佳素材。

现时研究人员可从ImageNet资料库取得多达1,400万张地方或物件的日常照片,它们都是从Flickr、eBay等网站收集而来,近年YouTube也成为ImageNet的资料来源。在2015至2016年间,便有240亿张照片上传到Google Photos,要取得他人肖像制作deepfake,可谓唾手可得。

大量照片和影片上传到互联网提供大量制作deepfake的素材。(视觉中国)

假到极致就是“艺术”

事实上,始作俑者Deepfakes向科技媒体《Motherboard》透露,其灵感就是从图像处理器大厂Nvidia的科研而来。该研究试图以现有照片教导软件自行把相中的猫变成猎豹、街景由日转夜,毋须人手改动而合成出新的假照片。Deepfakes声称自己只是一个普通程式员,并非人工智能专家。

虽然deepfake色情片引起大众哗然,但背后技术也为影视创作带来更多可能性。歌手Charli XCX和Troye Sivan的《1999》音乐录像就用了相关技术摄制,当中涉及大量上世纪九十年代的文化元素,如苹果创办人乔布斯(Steve Jobs)、电影《铁达尼号》(Titanic)、诺基亚(Nokia)手机3310等,还把两人面孔换到音乐组合Spice Girls和Backstreet Boys的成员身上。

导演Ryan Staake向科技媒体《The Verge》解释,决定用deepfake是基于艺术和实际考虑:“你想想更换衣着和化妆何等复杂,拍摄时间将长五倍,所以这是务实的解决方法。”

今年8月,多国科学家联同德国马克斯普朗克计算机科学研究所(Max Planck Institute for Informatics)发布了名为“深度影片肖像”(deep video portraits)的技术,可任意控制他人的面部表情、说话和动作来生成影片。示范影片中,当研究人员张口、头向右倾,一旁的奥巴马合成影像会同步做出这些动作。研究员Christian Theobalt形容,这项技术有助演员在电影中说外语时夹口形和配音,也会令电影后期制作出来的效果更丰富,其团队声称“将为影视娱乐工业带来重大变化”。

不过,Efros的同事Hany Farid提醒,研究人员应考虑更广泛的用途和影响:“从事特效的人固然会爱上这项新技术,但离开了荷里活,这项技术是否好多于坏,仍然未明。”

酿造“真实冷感”社会

美国马里兰大学(University of Maryland)法律教授Danielle Citron最初只关注deepfake如何侵犯女性私隐,后来逐渐发现deepfake亦可成为损害民主社会的工具。她和另一学者Bobby Chesney预期,deepfake将如假新闻般扭曲资讯,操控信仰,在愈趋两极的政治气候下,令社会不同群体之间更难沟通。“资讯网络正以有害的方式与我们的认知偏见交互作用,削弱信任感,deepfake将令这个问题严重恶化。”他们在报告中写道。

美国三名国会议员也在9月去信国家情报总监,警告deepfake或在选举活动中被用来散播错误资讯。这种政治动机正是Citron最担心的:“有个假的情景令我半夜吓醒:得州选举之际,有人发布了Beto O’Rourke(众议院议员)召妓的deepfake影片。如果在投票前一晚发布,就很难在影响散播前揭穿它。”她续说:“我开始看到一个技术纯熟的deepfake会如何阻碍民主过程。”

然而,有部分人觉得Citron过虑了。人工智能伦理与规管专家Tim Hwang认为,虽然随着deepfake愈来愈逼真和容易制作,并将配合互联网的散播力,形成“完美的误导资讯风暴”,但现时相关技术仍不简单,故他不担心deepfake会带来即时危险。或许deepfake的最大危机不在于引导人误信什么,而在于它的存在本身。密歇根大学社交媒体责任中心前首席技术专家Aviv Ovadya担心,未来社会将出现“真实冷感”(reality apathy)现象:经常接触虚假资讯会令人视所有事情都是骗局。在大众对大型机构和媒体的信任度下跌之时,Ovadya预期deepfake将令情况恶化。《金融时报》副总编Roula Khalaf亦担心,deepfake会令大众将真的报道亦当假。

Citron和Chesney曾设想未来最坏的情况:deepfake在社会根深柢固,竞选拉票、敲诈勒索等恶意使用无处不在,届时我们只能不断自行记录日常生活,才能抵抗合成影片图像,“而提供这种服务和管理相关数据的公司将拥有无比权力。”

2016年流出特朗普侮辱女性录音(美国有线新闻网CNN报导):

至于短期内的影响,在哈佛大学媒体、政治和公共政策中心(Harvard’s Shorenstein Center)研究网上假资讯的Cameron Hickey认为,deepfake真伪讨论的本身反映了一种危机,因为想要欺骗他人的人,也可藉deepfake之名来质疑任何对他不利的证据。

Farid同意这是deepfake短期内最大的危险:“你想想特朗普,若今时今日有一条他的声带流出,说他强抱女人,他将有很好的理由否认。他可以说那是有人合成的,而这理由却可以很合理。”

史泰林时期的苏联,曾多次改篡改“历史照片”。(Wikimedia Commons)

除了有可能操控现在和未来,deepfake也可用来控制过去,以造假影像在一代人脑中种下错误的记忆。Farid指出,斯大林掌权的苏联曾大量修改书籍上的照片,将其政敌抹去:“为什么要做这样麻烦的事?因为照片有很强的视觉力量。改变照片就改变了历史。”美国加州大学尔湾分校(UC Irvine)错误记忆专家Elizabeth Loftus认为,deepfake滥用的后果可以十分严重:“当人接收如此强烈的视觉讯息后,如何能在脑海中摆脱?”

虚假记忆满足偏见

事实上,人脑极容易形成错误印象。美国网络杂志《Slate》在2010年进行测试,对读者展示一堆真实照片,并从五张合成照片中,随机抽取一张混入真实照片。当中包括奥巴马与伊朗前总统艾哈迈迪内贾德(Mahmoud Ahmadinejad)握手,以及时任美国总统小布什在卡特里娜风灾时与棒球手Roger Clemens放假游玩等。

《Slate》曾以合成照片,实验读者对假新闻有否“记忆”。其中一张合成照为美国总统奥巴马与前伊朗总理艾哈迈迪内贾德握手,竟勾起了约四分之一参加者的虚假记忆。

《Slate》向约千名读者查问是否记得看过这些照片,发现在看过奥巴马握手照的人中,有47%人说记得发生过这件事,26%人更称记得看过这张照片。《Slate》还让读者对该照片留言,其中一则说:“我认为奥巴马做得很对,公然冷落艾哈迈迪内贾德将是错误的。”测试结果发现,每张合成照至少引起15%参与者的虚假回忆,总括而言,更有50%参与者声称相信合成照中的情景真实发生过。

测试引起了心理学家Steven Frenda注意,并与同事进一步分析结果。Frenda的结论是,合成照内容愈接近参与者的政治立场,受众就愈容易以为真的发生过,就像保守派人士更倾向相信奥巴马曾与敌国总统握手,自由派人士则更易相信小布什与Clemens在风灾时同游。

Frenda补充,即使参与者刻意胡乱作答,这些伪造照片已印在他们脑海中:“当人说谎或掩饰真相时,可能会扭曲其记忆,所以,他们有时会将谎言及其夸大成分,与真正记得的部分混在一起。”事实上,人的记忆并非想像中可靠,不像录影带般倒带到某时间点,而是由信手拈来最方便的记忆碎片重新建构出来,过程充满偏见。Frenda表示,我们倾向忘记资讯来源,若在一个不可靠的网媒上看过假报道,日后有可能记错为在CNN看到。

当deepfakes假得愈来愈真,人脑又如此不可靠,一些科学家和初创正研发技术应对。但单靠技术,又是否足以杜绝假影片、假新闻?请详见另文《【科技.未来】防伪研发竞赛展开 单靠科技足以打击深度造假?》

上文节录自第140期《香港01》周报(2018年12月3日)《“深度造假”崛起 还有什么可相信?》。

更多周报文章︰【01周报专页】《香港01》周报,各大书报摊及便利店有售。你亦可按此订阅周报,阅读更多深度报道。