【逃犯条例】学术分析警察讲“猪”定“自由” 研究时频谱揾真相
文:朱孝文 Lanston
2019年6月12日,香港警察以过度武力镇压抗议《逃犯条例》修订的市民,令舆论哗然。有不少警察滥权的证据广为流传,其中一段捕捉了警察爆粗挑衅躲在商场内的市民。原片如下︰
片中警员隔玻璃向示威者咆哮:“出来啦,__!”此片引起了一个稍为离题的讨论:究竟警察当时说的是“自由西”,还是粤语脏话“猪西”?原片字幕显示“自由西”,而网民纷纷表示如果边看片段边看字幕会听到“自由西”,但如只听声音则会听到“猪西”,十分神奇。万料不到在最近的《逃犯条例》修订争议中,竟出了一个香港警队版本的Yanny vs. Laurel罗生门。究竟当时警员说的是“自由西”还是“猪西”?
有争议的字眼总长0.5秒。假设警员说的是“自由西”,三字分别在3.9至4.1秒﹑4.1至4.25秒、及4.25至4.4秒位置,长度分别为0.2秒、0.15秒和0.15秒,长度比例为4:3:3。假设警员说的是“猪西”,长度则为0.35秒和0.15秒,亦即7:3。
不同发音的时频谱
我在中文大学的“粤语审音配词字库”提取了“自”、“由”、“猪”、“西”四字,并按4:3:3和7:3长度作切割然后合并成“自由西”与“猪西”两段语音,并按原片语速各自调整成0.5秒总长度。最后将语音转成时频谱(Spectrogram)。时频谱的X轴为时间,Y轴为语音频率,颜色越深代表信号越强烈。合成时频谱如下︰
“自由西”的时频谱在中间区间(0.2秒至0.35秒的位置)的频率倾向低频,图形深色部份看起来成“U”状。这是由于“由”发音较为低沉。作为对比,“猪西”的频率在0.2秒至0.35秒中间部份变化不大,与早段相同。再者,由于“猪”字一直拉长,图形深色部份成“一”状,直至“西”字出现,尾段频率才出现较大变化。
现在我们可以分析原片的0.5秒音频︰
图中可见,时段中间部份频率并无特别集中在低频部份,基本上与早段相同,与“猪西”的时频谱较吻合。从此可见警员较有可能说的是“猪西”而非“自由西”。这结果亦非常合乎常理,“自由西”实在太有创意,骂人者必须理解市民因争取自由而行动才骂得出来。“自由西”表面粗鄙实质高雅,需要有一定文化修养才能在千钧一发之际出口成文。相反,“猪西”一词是常见用语,情绪一来即可不问背景冲口而出,因此警员在片中讲的是“猪西”比较合理。
为什么我们有些时候会听到“自由西”?
如上面所言,如果我们看着字幕,或心中想着“自由西”三字,就会倾向把“猪西”听成“自由西”,为什么会这样?这是由于我们的大脑不会处理耳朵收到声音信号的每个信息(否则大脑会因处理所有信号细节而过劳)。人脑中的神经元(Neuron)数量以千亿计,神经元与神经元彼此相连,一个神经元可输出至多个神经元,多个神经元亦可输出至一个神经元,形成巨型神经网络。大脑将耳朵收到的信息按大脑中的神经元逐层传递,部份神经元按照接收到的信息决定自身是否会被激活,如被激活就会传递信号到下一个神经元。
当某个代表“自由”粤音讯号的神经元被激活时,大脑就会告诉你你听到了“自由”粤音讯号。而当某个代表“猪”粤音讯号的神经元被激活时,大脑就会告诉你你听到了“猪”粤音讯号。所以,当你看着“自由西”字幕或心中想着“自由西”三字的时候,大脑除分析收到的声音讯号外还会处理你看到或想着的信号,一起决定哪些神经元会被激活。而当音讯较为模棱两可时,“自由”神经元就会在听到“猪”一字时被激活,我们就会以为自己听到“自由”了。
作者简介:
美国威斯康辛大学研究生,研究兴趣为人工智能(深度学习、机械学习以及电脑视觉)
作者网志:https://lanstonchu.wordpress.com/
(文章标题由《香港01》编辑所拟。文章纯属作者意见,不代表《香港01》立场。)