AlphaGo“同门师弟”　新AI软件读唇准确度达93.4%　远胜人类

撰文：黄珮瑜

出版：2016-12-12 07:00更新：2025-02-12 00:35

听障人士要观察说话者的口形、舌头和下颚的动作、面部表情，甚至身体语言，才能“看懂”一句话。读唇是一门专业，困难在于说话者嘴唇活动大小、语速等因素，都会影响解读；而且要掌握语境，且要有不同范畴的知识，才能准确理解对方的话。不过，这项艰巨的任务已难不倒人工智能。Google旗下的人工智能公司DeepMind，继研发击败韩国棋王李世石的AlphaGo程式后，又开发了一个新的AI软件。它能透过无声影像解读人类的唇语，准确度高达93.4%，远胜读唇专家。

LipNet不是透过可视音素系统来运作，而是能够处理完整句子，能够辨识字母与唇部之间细微的对应关系。（Lipnet YouTube截图）

这个人工智能程式名叫LipNet，由牛津大学计算机科学系和DeepMind共同研发。LipNet之所以比以往的读唇程式更聪明更准确，皆因采取了截然不同的“思维模式”。一般的读唇程式着重识别若干个音素的唇形和运动（音素是最小语音单位，例如“b”，“ng” 和“th”），但很多音素发音时都有相同的唇形，不能单凭视觉分辨，而且发音部位在嘴巴或喉咙深处的声音，是不可能被察觉的，例如英文40至50个音素中，只十多个是可视音素（Visual phonemes），因此，靠这种方法读唇是很有局限的。

LipNet不再透过可视音素系统来运作，而能够处理完整句子，也能够辨识字母与唇部之间细微的对应关系。专家为LipNet进行特训，从英国BBC电视节目如《Newsnight》、《Question Time》以及《World Today》等，节录29,000段附字幕影片，每段长3秒，当中包含了118,000个不同句子，以及约17,500个单词，涉及不同知识范畴，并且包含了不同的灯光效果和讲者头部位置的移动。

【人工智能】仿A.I.做真访问报道　人类记者会否被取代？李世石不敌AlphaGo连输三局　“只是我输了　不是全人类”【Google发布会．有片】新手机Pixel及Home家居系统　智能助手进化英科学家研发“AI法官”　与欧洲人权法院八成裁决一致

LipNet误差率远低于听障人士

为了考核LipNet的表现，研究人员找来3名听障人士做测试，安排他们观看其中300段影片，再将唇形与台词配对，结果发现3名志愿者的误差率为47.7%。研究人员再向LipNet展示刚才的300段影片，结果LipNet的误差率只有6.6%，远比人类准确。

虽然测试结果显示，在读唇一事上，人类完全被LipNet技术性击倒，但测试也有局限性，就是所有片段都经过研究团队精心挑选：画面光线充足，每个讲者都面对镜头，台词也符合某一特定格式，例如“将蓝色放入m1”这种短片，由动词、颜色、介词、字母、数字组成。如果在YouTube随机挑选影片，让LipNet解读，准确度可能与原来的测试结果相距甚远。

要真正帮助听障人士，LipNet还有许多方面需要改善，包括通过大量真实环境中的人物对话片段，让LipNet学懂从不同角度阅读唇形，以及分辨不同形式的句子。牛津大学的研究人员阿萨埃尔（Yannis Assael）表示：“我们相信人工智能读唇技术应用广泛，例如发展出智能更高的助听器，或者在嘈杂的环境下，仍能准确识别语音。”

LipNet还有多方面需要完善，例如要学懂从不同的角度阅读唇形，以及分辨不同形式的句子。

听障人士生活　从此不一样……

日本将会推出首部“能看的电话”，通过语音识别系统将对方的说话，即时转换成文字，并显示在用户电话上，就像听电话时有字幕一样。有了这项技术，听障人士也可以“听电话”。日本之所以能够发展出这种科技，是因为日文的发音系统比较简单，电脑较易识别。同样科技应用到广东话上，则需要一套更复杂的语音识别系统。

Uni能够识别出手势，将手语转换成文字。（MotionSavvy网站图片）

美国听障人士发明手语翻译工具

在美国，一群听障人士组成创业团队，研发出能够翻译手语的工具“Uni”。它其实是一部平板电脑，能以相机捕捉手掌与手指的动作，再识别出手势，并翻译成文字，为听障人士传递信息。公司负责人之一Ryan Hait-Campbel先天听力有缺陷，深明听障人士与外界沟通时的困难，这驱使他研发手语翻译工具。目前团队正努力建立一个名为Sign Builder的资料库，希望跨越这个障碍。

你想看更多精彩的深度文章吗？请购买今期《香港01》周报，或点击此处：成为我们的订户。

AlphaGo“同门师弟” 新AI软件读唇准确度达93.4% 远胜人类

AlphaGo“同门师弟”　新AI软件读唇准确度达93.4%　远胜人类