AlphaGo“同门师弟” 新AI软件读唇准确度达93.4% 远胜人类
听障人士要观察说话者的口形、舌头和下颚的动作、面部表情,甚至身体语言,才能“看懂”一句话。读唇是一门专业,困难在于说话者嘴唇活动大小、语速等因素,都会影响解读;而且要掌握语境,且要有不同范畴的知识,才能准确理解对方的话。
不过,这项艰巨的任务已难不倒人工智能。Google旗下的人工智能公司DeepMind,继研发击败韩国棋王李世石的AlphaGo程式后,又开发了一个新的AI软件。它能透过无声影像解读人类的唇语,准确度高达93.4%,远胜读唇专家。
这个人工智能程式名叫LipNet,由牛津大学计算机科学系和DeepMind共同研发。LipNet之所以比以往的读唇程式更聪明更准确,皆因采取了截然不同的“思维模式”。一般的读唇程式着重识别若干个音素的唇形和运动(音素是最小语音单位,例如“b”,“ng” 和“th”),但很多音素发音时都有相同的唇形,不能单凭视觉分辨,而且发音部位在嘴巴或喉咙深处的声音,是不可能被察觉的,例如英文40至50个音素中,只十多个是可视音素(Visual phonemes),因此,靠这种方法读唇是很有局限的。
LipNet不再透过可视音素系统来运作,而能够处理完整句子,也能够辨识字母与唇部之间细微的对应关系。专家为LipNet进行特训,从英国BBC电视节目如《Newsnight》、《Question Time》以及《World Today》等,节录29,000段附字幕影片,每段长3秒,当中包含了118,000个不同句子,以及约17,500个单词,涉及不同知识范畴,并且包含了不同的灯光效果和讲者头部位置的移动。
LipNet误差率远低于听障人士
为了考核LipNet的表现,研究人员找来3名听障人士做测试,安排他们观看其中300段影片,再将唇形与台词配对,结果发现3名志愿者的误差率为47.7%。研究人员再向LipNet展示刚才的300段影片,结果LipNet的误差率只有6.6%,远比人类准确。
虽然测试结果显示,在读唇一事上,人类完全被LipNet技术性击倒,但测试也有局限性,就是所有片段都经过研究团队精心挑选:画面光线充足,每个讲者都面对镜头,台词也符合某一特定格式,例如“将蓝色放入m1”这种短片,由动词、颜色、介词、字母、数字组成。如果在YouTube随机挑选影片,让LipNet解读,准确度可能与原来的测试结果相距甚远。
要真正帮助听障人士,LipNet还有许多方面需要改善,包括通过大量真实环境中的人物对话片段,让LipNet学懂从不同角度阅读唇形,以及分辨不同形式的句子。牛津大学的研究人员阿萨埃尔(Yannis Assael)表示:“我们相信人工智能读唇技术应用广泛,例如发展出智能更高的助听器,或者在嘈杂的环境下,仍能准确识别语音。”
听障人士生活 从此不一样……
日本将会推出首部“能看的电话”,通过语音识别系统将对方的说话,即时转换成文字,并显示在用户电话上,就像听电话时有字幕一样。有了这项技术,听障人士也可以“听电话”。日本之所以能够发展出这种科技,是因为日文的发音系统比较简单,电脑较易识别。同样科技应用到广东话上,则需要一套更复杂的语音识别系统。
美国听障人士发明手语翻译工具
在美国,一群听障人士组成创业团队,研发出能够翻译手语的工具“Uni”。它其实是一部平板电脑,能以相机捕捉手掌与手指的动作,再识别出手势,并翻译成文字,为听障人士传递信息。公司负责人之一Ryan Hait-Campbel先天听力有缺陷,深明听障人士与外界沟通时的困难,这驱使他研发手语翻译工具。目前团队正努力建立一个名为Sign Builder的资料库,希望跨越这个障碍。
你想看更多精彩的深度文章吗?请购买今期《香港01》周报,或点击此处:成为我们的订户。