Meta台工程师推动闽南语AI翻译为父圆心愿 朱克伯格亲自PO片试用

撰文: 陈晓宁
出版:更新:

社交网站Facebook母公司Meta打造人工智能(AI)技术翻译系统,让使用闽南语(台语/福建话)人士能与英文使用者对话。这项新技术的幕后推手之一,是来自台湾的Meta软件工程师陈鹏仁,希望父亲能用最熟悉的语言跟所有人沟通。
朱克伯格(Mark Zuckerberg,祖克伯,扎克伯格)周三(19日)在Facebook(脸书)上发布影片,亲自展现这项技术。

朱克伯格在影片中展现Meta推出闽南语、英文双向即时翻译系统,他与陈鹏仁直接沟通,再透过AI即时完成翻译,过程中祖朱克伯格特别提到,有数百万人以闽南语沟通,但是并没有一个标准的书写文字系统,这也让打造翻译软件变得较困难。

Meta发布新闻稿指出,在台湾长大、讲国语的陈鹏仁深深了解语言障碍将影响沟通能力,他的父亲陈圣奖是一位70岁、退休的工厂技术主管,来自闽南语普遍使用的台湾南部。虽然闽南语与国语这2种语言相关,仍有许多不同,让陈鹏仁的爸爸常觉得用国语进行复杂的对话非常困难。

“我希望我爸跟所有人沟通时,都用台语,这是他最熟悉的语言。”Meta AI研究员陈鹏仁分享,“他听得懂中文(国语),但若是讨论比较复杂的主题时,他说话的速度会比较慢。”不甘于只为爸爸担心,陈鹏仁开始投入心力,改善这个问题,推动全新的技术发展,让闽南语及英文能相互翻译。

Meta表示,目前为止,AI翻译主要著重于各种书写语言,但在全球超过7000种的现存语言中,有近半数主要以口语表达,没有标准或广泛使用的书写文字系统。这导致Meta无法使用标准技术为这类语言打造机器翻译工具,因为标准技术需有大量的书写文字来训练AI模型。

为克服这项挑战,Meta为主要以口语表达的闽南语,打造一个史无前例的人工智能技术翻译系统。这项采用开放原始码的翻译系统是通用语音翻译工具(UST)专案的一部分,致力于开发新的AI方法,希望能为所有现存语言进行即时语音翻译,包括主要以口语表达的语言。

为开发这个只有语音的全新翻译系统,Meta AI研究人员必须克服许多来自传统机器翻译系统的挑战,包括资料搜集、模型设计以及准确度评估。Meta不只会开放闽南语翻译模型的原始码,也会公开评估资料集和研究报告,让其他人能重制并以Meta的工作成果为基础建立模型。

(左)测试用闽南话AI翻译系统,与英文使用者对话交流。(Twitter@MetaAI)

Meta著手打造闽南语翻译系统时,面临的一个重大障碍,是能否搜集足够资料。Meta利用中文作为中间语言,以建立伪标签和人工翻译,也就是先将英语或闽南语语音翻译成中文文字,接著再翻译成闽南语或英语,并新增至训练资料中。这个方法利用资源充足的相似语言的资料,大幅改善模型成效。

Meta指出,评估主要以口语表达的语言例如闽南语时,挑战之一是没有标准的书写文字系统。为启动自动评估程序,Meta开发了一套系统,将闽南语语音转译成标准化的拼音符号,能够很容易比较不同方法下的翻译质素。

Meta也根据名为Taiwanese Across Taiwan的闽南语语音语料库,建立第一个闽南语与英语双向的语音翻译基准资料集。Meta将开放此基准资料集的原始码,鼓励其他研究人员合作进行闽南语语音翻译,一同在这个领域取得更多进展。

Meta表示,在目前的阶段,Meta的作法能让使用闽南语的人士与使用英语者对话。虽然相关模型仍在开发中,而且每次只能翻译一个完整句子,但已朝向未来实现为各种语言提供同步翻译的目标迈进。

Meta认为,AI研究有助于打破在现实世界和元宇宙中的语言限制,未来所有语言无论是否可以书写,都不再是阻碍人们相互理解的障碍,期待为未来顺畅无阻的沟通持续贡献。