【科技.未来】人工智能测谎 将成执法新潮?

撰文: 孔祥威
出版:更新:

面世近百年的测谎机(polygraph),测试结果不可靠已是不争的事实。然而,背后的思路从未消失,近年更有科学家希望结合人工智能(AI),制造新一代甚至未来的测谎机器,有些更已于欧美国家边境关口测试。到底这些新的工具会把测谎技术提升至另一层次,还是把测谎机那段黑暗历史以AI之名重演一遍?

有科学家指出,说谎是人类每天生活的一部份。根据美国南加州大学心理学家Jerry Jellison的研究,我们平均每天可听到高达200个大话,如何辨别谎言,便成为了一个重要问题。早有科学家认为,我们“口里说谎,身体却很诚实”,口窒、“鬼拍后尾枕”之余,也可能心跳加快、滴汗或面部肌肉会有微表情(micro-expression)。难怪心理学大师佛洛伊德(Sigmund Freud)曾说:“没有凡人可以保守秘密,若他不开口,他的指尖会说话,甚至身上每一个毛孔都会背叛他。”

尽管如此,不代表我们可轻易识破谎言。2006年一个大型分析回顾了206个科学研究,发现人类判断谎言的成功率只有54%,仅比随机好一点。美国警员John Larson在1921年发明的测谎机,问测试者问题时持续量度其血压和呼吸速率,把结果描画至纸卷上,出了名最不准确。原因很简单,根本无从得知这些生理变化是由于恐怕被识穿大话,还是担心会被错误指控,感到紧张、有压力又或极力尝试回忆时所致。而不同人对在解读同一幅图时也可得出不同结论,甚至因地域、种族和性别而有重大差异。一些人权组织主张,测谎机有违美国宪法对于“不自我入罪”的权利保障,现时,美国绝大部份法庭都不接纳测谎机的结果。

有专家指自从9.11后,各国执法部门都积极寻找真正有用的测谎方法。(Getty Images)

“9.11(事件)后一切都改变了。”心理学家Paul Ekman在著作《Telling Lies》中写道。在那场恐袭中,有数名劫机者是骗过边境官员才得以进入美国境内,这令当局迫切追求新的测谎技术,希望在反恐和边境检查上都有真正有效的工具,于是大幅增加对测谎研究的资助。而近年难民危机及法国、比利时、西班牙、德国等地发生的连串恐袭,亦让欧洲警察和相关保安部门面临愈来愈大压力。

Ekman是研发资助增加的得益者之一。他早于上世纪七十年代已将与精神病人面谈过程录影,其中一名多次自杀的42岁女病人Mary,为了取得周末离开医院的许可,谎称自己已感觉比较好。被骗的Ekman后来不断翻看录影,终于发现她在说谎前会有极短暂一瞬间流露出失落表情。

Paul Ekman(左)主张,人说谎时会流露微表情。(Paul Ekman Group图片)

往后数十年,Ekman都在研究这些他称为“微表情”的面部动作如何能揭示隐藏的真相, 2009年的大热电视剧《Lie to Me》便是改编自其经历。这项技术其后更被用作新反恐措施,于2006年在真实世界中首次测试,Ekman花了一星期教导美国入境官员如何在边境检查的过程中,透过观察特定微表情来测谎。测试的成果却相当有意思:往后六年间,至少有16名恐怖分子获准入境美国。

但这不代表相关科研就此打住,近年甚至有愈来愈多科学家和国家执迷于这套想法,并希望结合AI技术开发边境审查系统。

欧洲一些国家曾在边境测试AVATAR,以AI担任关员。(圣地牙哥大学)

机械人在边境把关

在2014年,飞往罗马尼亚首都布加勒斯特的旅客就被一个名为Avatar的虚拟关员检查。除了电子护照扫描器及指纹读取器外,Avatar还有一个红外线眼动追踪镜头和量度身体动作的感应器。它会问过关旅客一系列预先设定的问题,同时拍下他们的反应,再使用演算法把这些数据结合,分析表情、语调、回答内容等有否出现“骗子迹象”,例如因为想要说谎时的认知压力而不自觉地出现的微表情。最后,它会对被查人士的真诚程度进行评级,分绿、黄或红色等级,目标在45秒内把判决传送给人类执法人员。绿色的可毋须再作检查顺利通关,其余则要接受人类关员的问话。

负责提供这系统软件的公司Discern Science声称,初步研究显示Avatar的准确率为83%至85%,“远高过人类平均只有54%”。Avatar似乎配合了保安和航空业界对行为分析愈来愈浓厚的兴趣。在今年5月一个会议上,美国运输安全管理局、伦敦吉域机场(Gatwick Airport)、以色列机场管理局等代表就在边境管制上加入行为分析技术商讨,希望加强旅客安全和降低风险。Discern Science策略总监David Mackstaller透露,正与列根华盛顿国家机场及一些他不愿具名的官员洽谈,在亚利桑那州美墨边境进一步测试后永久安装Avatar。

列根华盛顿国家机场正在洽谈安装AI关员Avatar,协助判断旅客有否谎报资料。(Getty Images)

拉脱维亚、匈牙利和希腊则测试过另一套名为iBorderCtrl的系统。该系统使用英国曼彻斯特都会大学(MMU)在千禧年代开发的Silent Talker技术,以AI分析超过40种微表情。旅客到达机场前,先要登录一个网站上载护照相片,网站会有一个虚拟关员问一些常见的海关检查问题,旅客需要口头回答,系统之后会给旅客一个二维码(QR Code)。入境时,关员会以平板电脑扫描二维码,采集指纹和核实容貌是否脗合上载照片。最后,电脑显示一个以100为满分的分数,令关员参考旅客的资料是否可信。这个项目已获一个欧盟研究计划注资450万欧元,由来自多国的科研机构和保安科技公司共13个单位组成的联盟管理。

Silent Talker指研究显示其准确率达75%。但MMU计算机智能讲座教授Keeley Crockett强调:“不只是由我们的产品提供风险分数,那是一个有人参与的系统……它不会自动决策,只会为每个独立旅客打分。我们想为大众创造更快更安全的边境检查。”

曼彻斯特都会大学研发的iBorderCtrl,以AI分析旅客微表情并给予分数,判断是否说谎。(曼彻斯特都会大学)

另一测谎机制造商Converus声称,其EyeDetect是“现有最可靠的测谎机”,准确率有86%,比一些研究指测谎机只有65%至75%为高。在测试者回答问题的同时,EyeDetect会以红外线镜头每秒拍下60张影像,观察眼球活动和瞳孔大小的细微变化。这些数据会传到Converus的伺服器,机器学习演算法会计算测试者是否说谎。这几乎是科幻经典电影《2020》(Blade Runner)中,追捕复制人时进行的“孚卡测试”(Voight-Kampff Test)。

Jon Walters是Public Safety Testing创办人,其公司在美国华盛顿州替警察、消防和救护进行职前测试。他说执法部门开始选用EyeDetect取代现有费时失事的测谎程序。相比起需时2至4小时的测谎机,EyeDetect只需30分钟,而且几乎全自动,可绕过测谎机的一大缺憾—通常在解读结果时带有偏见的人类考官。Walters说过程也比较舒服:“当我要接上测谎机的线,其实颇为吓人。若用EyeDetect,只需坐下看着机器。”

联邦快递(FedEx)和Uber已分别在巴拿马和墨西哥使用EyeDetect,以筛查出有犯罪记录的司机;消费者信贷评级机构Experian亦用它来测试哥伦比亚分部的员工,确保没有操控公司的数据库来批核贷款予家属;英国诺桑比亚的警察则用EyeDetect进行先导试验,量度性罪犯的改造程度。其他使用者还有阿富汗政府、麦当劳及美国一些地方警察。

字里行间看出谎言?

有科学家更相信,AI根本不需要观察这些身体变化也可识穿谎言。英国卡迪夫大学(Cardiff University)和西班牙马德里卡洛斯三世大学(UC3M)合力研发的VeriPol,去年起协助西班牙警察从报案的文字记录识别是否报假案。设计者之一的Miguel Camacho Collados曾任警员,他说市民虚报抢劫,有些只想避免告诉家人或朋友他遗失了重要财物,有些则希望索偿保险。

西班牙国家警察早前应用人工智能,声称可从报案人的文字口供识别是否报假案。(Europa Press)

研究人员以1,122宗已结案的抢劫案件训练VeriPol,辨别一句陈述中的不同元素,例如形容词、动词、标点符号,然后找出假案的规律。据称,假劫案报案一般较短,而且主要描述失窃物品而非劫案本身,有关案件和劫匪的详情较少,也缺乏目击者。然后,他们以659宗案件测试这演算法,结果VeriPol的准确率分别比两名人类专家高15至20%。2017年6月在梅西亚(Murcia)和马拉加(Málaga)的先导研究更发现,被VeriPol判断为虚假的报案中,有83%在进一步盘问原诉人后就成功结案。而VeriPol在一周内总共侦测出69宗假案,马拉加和梅西亚在过往一般每周只能分辨出12.14和3.33宗。

佛罗里达州立大学讯息学教授Shuyuan Ho希望,测谎不限于执法用途。在今年2月的《人类行为中的计算机》(Computers in Human Behavior)期刊中,她与史丹福大学的科学家提出了所谓的“线上测谎机系统”,声称只要观察二人的打字交谈内容和速度就可测谎。他们找来40人参与研究,2人1组用Google Hangout互相问答。参与者被隐藏了真实身份,在每个回合对话开始前才知道自己要扮演的是每句都是真话的“圣人”,还是每句都说谎的“罪人”。这些交谈记录包括了每句回应花了多少时间,研究人员把部份数据用来训练一个机器学习模型,再用其余数据测试它可否分辨谁是圣人、谁是罪人。

有科学家声称,可从网上交谈对话测出是否说谎,可应用至交友平台、银行等。(Getty Images)

研究中,机器学习模型辨别成功率为82.5%。Ho说,观看同样数据的人类表现只是好过瞎猜少许。这演算法凭一些线索找出罪人,例如回答速度比圣人快、沟通过程中也展现更多“负面情绪”和“焦虑”、使用的字数较多、也会用“经常”和“永不”表达肯定。相反,圣人会用较多表达因果关系的字眼,例如“因为”,也用更多表达不确定的字眼如“可能”、“我猜”。

Ho扬言,这技术可作为线上测谎系统的原型,例如可用在线上约会平台,又或成为反恐机构的测谎元素之一,银行甚至可以用顾客与聊天机械人的记录来评估他的诚信:“若银行应用(相关技术),他们可以很快就更加了解更多与他们做生意的人。”

继续阅读︰以人工智能测谎 重蹈伪科学历史覆辙?

相关文章︰新药研发低迷 AI可如何颠覆生态AI用数据研制新药 反而是它的最大局限?未来制药专家 将由AI取代人类?

上文节录自第182期《香港01》周报(2019年9月30日)《AI测谎:重蹈伪科学历史覆辙?》。

更多周报文章︰【01周报专页】《香港01》周报,各大书报摊、OK便利店及Vango便利店有售。你亦可按此订阅周报,阅读更多深度报道。