教大学者伙“粤语迷”澳大利亚籍助理创语料库 助外籍人士学广东话

撰文: 邝晓斌
出版:更新:

谈及世界上最难掌握的语言,广东话必定上榜,简单如“食饭”可衍生出“食晚饭”、“食冷饭”、“食拖鞋饭”等,对外籍人士并不容易理解,然后广东话或广东话的俚语,仍吸引不少外籍人士,令他们着迷。一年多前加入香港教育大学负责“香港二十世纪中期粤语语料库”研究项目的澳大利亚籍研究助理Alistair Tweed,便是“粤语迷”的其中一员。
Alistair由自学广东话,发展到赴港研究广东话,更协助教大语言学者钱志安开发粤语语料库,他以一口流利广东话道出原因:“好多人以为广东话难学,但其实只系教材比较少。”

教大语言学及现代语言系副教授钱志安(右)及澳大利亚籍研究助理Alistair Tweed(左)。(邝晓斌摄)

教大语言学及现代语言系副教授、语言学及语言研究中心副总监钱志安的研究团队,透过翻看1947年至1970年的伦理类、侦探类及诙谐类经典粤语长片,誊写角色对白,于2012年首度设立“香港二十世纪中期粤语语料库”。

研究团队先后获研资局及其他资助拨款近100万元,开始第二阶段研究,连同首阶段语料库,合共处理约70套粤语长片、约300名演员对白,涉及总字数近100万字。

Alistair Tweed初时透过阅读相关书籍,自学广东话。(邝晓斌摄)

澳大利亚籍研究助理成语料库“幕后功臣”

建构语料库,本为协助外籍人士了解广东话,然后语料库的其中一名“幕后功臣”却是澳大利亚籍研究助理Alistair Tweed。他就读中学期间,曾修读俄文及法文,大学则主修普通话及日文;后来想到外国进修语言,因而在学期间首次到访香港,已觉得是个“好地方”,因此7年前毅然赴港工作。数年间曾任海外升学顾问、小学英文教师。在港期间,他更为自己起了个中文名──徐乐文。

受华侨同学影响 引起对广东话兴趣

大部分外国人都是先学普通话,然后才学广东话,惟Alistair的情况则是相反。他向记者表示,对广东话的热情是源于中学时期,身边很多同学是华侨后裔,经常会以广东话沟通,因而唤起他的兴趣,及后更购置书籍自学。

“你个电脑”“你部电脑”?

Alistair忆述,在港担任小学英文教师期间,曾发生运用广东话的“虾碌”情况,他当时跟学生说:“你个电脑……”然后学生立即回应:“阿sir,应该系‘你部电脑’。”他随后认为,担任英文老师只能继续说英文,不能学好广东话,亦是触发其转换工作环境的原因之一。

年多前加入教大 为语料库编写演算法

于一年多前,Alistair正式加入教大,成为粤语语料库项目研究助理。居港7年间,Alistair学得一身好本领,能以流利广东话对答沟通,他认为:“好多人以为广东话难学,但其实只系教材比较少。”

Alistair参考学习广东话时遇过的困难,为语料库编写演算法(algorithm),协助平台使用者能获得更有效、清晰的资讯。他相信,语料库为外籍人士提供参考例子,有助他们学习正确运用广东话字词,尤其是配词功能,让使用者认识字词在句子不同位置下的意思,区分广东话句式与英文句式的差别。

于一年多前,Alistair加入教大担任研究助理,协助钱志安开发粤语语料库项目。(邝晓斌摄)

语气助词为外籍人士学习广东话最大难题

Alistair的经验发现,广东话的量词运用、语气助词运用、变调、字词于不同句式的含义,均为外籍人士学习广东话的最大难题;只要语气助词稍有不同,已可改变整个意思,例如“去㖞”与“去咩”,意思上截然不同。

语料库包含搜寻引擎 方便外籍人士掌握广东话俚语

因此语料库最新版本能提供字词组合、分词组合、词性、粤语注音等资讯,同时包含搜寻引擎,方便外籍人士掌握普遍中文字典所缺乏的广东话俚语、常用字词配搭,同时具备电影对白例句重播功能,让使用者厘清读音、适用语境等。

语料库亦包含常用助语词如:“㗎”、“啦”

这亦是钱志安采用粤语长片作资料库素材的原因,他解释,主要因为对白写实、通俗,突显广东话的字词句式结构,对有志学习粤语的外国人而言,具有参考价值。

他举例指,例如广东话的“食饭”,同时能衍生“食晚饭”、“食冷饭”、“食拖鞋饭”等不同含义的配词;另外,配合语气助词亦有不同意思,因此语料库囊括“㗎”、“啦”、“啵”等常用助语词,让外籍人士掌握其用法。

Alistair Tweed初时透过阅读相关书籍,自学广东话。图为Alistair阅读过的学习广东话书籍。(邝晓斌摄)
最新版本“香港二十世纪中期粤语语料库”将于4月下旬,正式开放予公众使用。

钱志安强调,外籍人士透过认字学习广东话的同时,不能忽略配词、四字词语的重要性,“例如识个‘香’字,识个‘港’字,但(外籍人士)未必识‘香港’。”

根据语料库的统计, 70套粤语长片当中,总共包括约9,000个“词种(word type)”,首48个高频词的覆盖率为50%,首916个高频词的覆盖率为90%。钱志安说,此数据能为外籍人士提供学习指标,熟读48个高频词,相当于掌握一半常用的广东话词语。

最新版本“香港二十世纪中期粤语语料库”将开放予公众使用

最新版本“香港二十世纪中期粤语语料库”将于本月下旬,正式开放予公众使用。教大语言学及现代语言系将于本年5月27至31日,于大埔校园举行“粤语研究研习班”,来自世界各地的粤语研究学者,将就广东话课题深入讨论。

【第一届武博】眼界.决定境界!5月3至5日在九展举行的第一届香港武术及搏击运动博览(武博),活动包括解构武术电影的光影武林隧道、有趣好玩的武馆街游戏,以及超过100个体验班,让市民、初学者或武术专家,透过这个多元化体验型博览会,从武博扩阔眼界、提升境界!

按此立即购票

按此浏览武博专页