【科技.未来】辨识人脸表情 等于读懂“情感”?
当人脸辨识在全球各地相继推出,令人担心环形监狱时代来临,更进一步的反乌托邦或许在等着我们。一些科技公司声称可以人工智能(AI)分析我们的表情,解读出情感状态,有助各行各业了解消费者喜好之外,更可被执法机关用来判断你是否对公众安全构成威胁。
承接上文︰人脸辨识升级 情感辨识应用遍地开花
问题是,这些技术到底有多大成效?辨识到表情又是否真的等于辨识到情感?美国心理协会(APS)委托五位科学家探讨这个问题。他们花了两年钻研了逾1,000份相关研究,于今年7月中发表分析报告,认为面部表情与情感辨识的关系并非Ekman所主张那么简单、直接和普同。“数据显示,人们在愤怒时会皱眉的情况,平均不足30%,所以,不是皱眉就代表了愤怒,它只是愤怒的众多表征之一。”文献研究者之一、美国东北大学心理学教授Lisa Feldman Barrett对科技媒体《The Verge》说,“是否真的想以这种基础来判断出结果?你想不想在法庭、工作面试、医疗诊断或机场等场合,使用准确率只有30%的演算法?”
Barrett还是研究生时,首次接触到Paul Ekman提出的那个古典情感理论。美国加州大学柏克莱分校(UC Berkeley)心理学家Paul Ekman,他在上世纪六十年代主张,愉快、伤心、厌恶、恐惧、愤怒和意外,这六种情感不论文化背景为何,都会以普同的方式展现,并可透过分析面部肌肉动作来侦测。在回顾文献时,她开始担心背后的研究方法论有缺陷,尤其觉得Ekman向测试者提供预先选择好的标签来与相片配对,这做法已无意中引导了某种答案。于是她和同事挑战这个假说,重做Ekman的测试但不提供标签,让测试者自由形容他们所看到相中人的情绪。结果,特定表情和情绪之间的关联大幅弱化了。
Barrett认为,想要跨越所有文化和脉络,把表情直接套为情感,这种想法根本不合理。一个人固然可以因为愤怒而皱眉,但另一人也可以笑里藏刀。“对上一次有人因为愤怒时皱眉而赢得奥斯卡金像奖是何时?根本没有人会认为这就是好演技。”
所以,当出售情感分析工具的科技公司如微软,说AI的进展让它的软件“辨识八种核心情感状态,基于反映这些情绪的普同面部表情”,正是Barrett所反对的。她在著作《How Emotions Are Made: the Secret Life of the Brain》中主张,大脑中并不存在受外在刺激而引起的普同情感,而每种情感经验都由更多基础部份构成:“它们是你身体的不同生理特质的结合,一个灵活的大脑可把它与身处的发展环境连接,而文化和成长经历就提供了那环境。”例如,Affectiva行政总裁Rana el Kaliouby发现,巴西人会用宽阔而持久的笑容来表达愉悦,而日本就只有礼貌而非喜悦的笑容。
事实上,美国交通安全局(TSA)在2007年引入了一个Ekman担任顾问的项目,训练官员透过面部表情和行为辨识潜在恐怖分子。美国政府责任署(GAO)在2013年发表对该计划的评估,发现TSA根本没有为这项目建立足够科学基础,而项目也没有引致任何人被捕。美国公民自由联盟(ACLU)2017年的研究更指该项目涉及种族貌相(racial profiling)。
俄罗斯公司Neurodata Lab曾做过一个简短实验,并显示了情境脉络对于情感辨识的影响。来自29个国家逾1,400名测试者需要看四组照片,每组两张。每组的第一张照片都只显示一名有某种面部表情的女性,第二张也有同样的女性,但会手执不同物件如睫毛刷、书、眼镜、牙刷或结他,为照片加入环境脉络。然后测试者需要看每张照片,感觉照片对于他们是否“富情感的”(emotional)。测试者对两者反应有明显差别,没有加入脉络的照片,大部份测试者都认为是“富情感的”(3.52张);但加入物件后,很多测试者会改变看法,只剩约四分之一认为是“富情感的”(1.2张)。
英国格拉斯哥大学计算机科学教授Alessandro Vinciarelli解释:“整体而言,非语言的线索,即面部表情、声调、姿势等,比起文字都倾向以更为弹性的方式传达意思。为什么非语言沟通是一种强大的方式来传达微妙的差异,尤其在社交和情感互动上?这正是一大原因。但代价是,互动会有模糊或不确定之处,只可以靠考虑情境脉络来解决。”
走出情感刻板印象
美国北卡罗莱纳大学心理学与神经科学助理教授Kristen Lindquist补充:“绝大部份数据显示,人们会因为学习过程而在接收面部情感的能力上有所不同。脸上的资讯很暧昧,人们在利用环境脉络和过往所学来拆解这暧昧时,有不同程度的差异。这解释了为什么小孩会随年长而愈来愈熟练理解他人的面部表情,以及为什么有些人是社交能手而有些不是。”
纽约大学的AI Now研究所总监Meredith Whittaker警告,这些以Ekman那过时的科学理论为基础、无视情景脉络的情感辨识将会带来实际的社会伤害:“你已经见到招聘公司利用这些技术来测量求职者是否值得聘用,也有一些实验性质的技术引入到学校来观察学生有没有专注上课。当这种资讯可以用来阻止一个人得到工作,或形塑他们在学校会如何被对待和评估,而那分析又不是极之准确的话,将会造成十分重大的伤害。”
英国牛津大学互联网研究所的哲学家Brent Mittelstadt也同意。他说,现时在情感辨识应用上,遇到“有问题的案例多过有正面用途的”:“随着一个应用的相对风险上升,它的准确度和透明度也应该上升。在iBorderCtrl的例子中,问题在于被质疑说谎的人不会被告知他们的测试结果,或关于该系统功能和准确度的资讯。缺乏这些的话,将会非常难挑战自动系统的决定。”
Barrett认为,科技公司要迈向正确的方向,应收集采用更多数据,训练他们的系统考虑身体姿态、声音特征、环境脉络等,就如正常人类一般。Kaliouby也同意情感很复杂,因此,Affectiva正不断丰富他们的数据,除了使用影片而非静态图片来训练演算法之外,他们也尝试捕捉更多脉络数据,例如声音、步态以及人类察觉不到的细微面容变化。
数据分析公司尼尔森(Nielsen)2017年发表的一项测试结果发现,以人脸编码、生物特征、脑电图等神经科学技术辨识情感的准确率,若独立分开使用的话,分别只有9%、27%和62%;若三者都用的话,则可增加至77%;而配以问卷调查的话,可再增至84%。
Barrett反指问题不只关乎数据,而是数据如何被标签。现时Affectiva和其他情感侦测公司用来训练演算法的标签过程,只能够辨识出Barrett所谓的“情感刻板印象”。对此,Kaliouby声称他们从87个国家收集了共800万张面孔数据,并对面部动作引入“文化针对性基准”,试图减少情感辨识时的文化差异影响。“我们要确保训练演算法时的数据足够多元。我们需要白人、亚洲人、有色人种,甚至穿穆斯林头巾的人。”她也意识到情感辨识可能被误用:“与大众就这科技应如何使用而展开对话,这非常关键。”
但以行业领先者自诩的Kaliouby也无奈地说:“这些年来,我已尝试过解决该问题,但从整个行业而言,我们仍未做到。我会形容它就像幼儿,只会理解简单的状态,但不会有语言或老练的感知去辨识复杂的情感。”她又补充,很多时客户对于更完善的做法没有兴趣,反而要求基于从Ekman研究而来的六种情感分析。
或许,人类总有一天能制造出与人类接收情感无异的机器,尽管如此,Kaliouby坦言仍不足以完全解决情感辨识的问题,因为“人类也经常会错意”。
相关文章︰
上文节录自第191期《香港01》周报(2019年12月2日)《人脸辨识升级 从表情读懂情感?》。
更多周报文章︰【01周报专页】
《香港01》周报,各大书报摊、OK便利店及Vango便利店有售。你亦可按此订阅周报,阅读更多深度报道。