【学中文难】中大教授研发贴地网上字典 助少数族裔拆字学中文
中文大学工商管理学院副教授陈伟光精通语言计算学及人工智能,多年设计电脑系统程式分析汉语字句。近月他研发了一个网上字典,让不谙中文的外籍人士输入英文、贴上中文句子,或上载相片,页面便会分析,并翻译其中文意思、显示句子结构、每个字的部首、笔划、用法及其他配字等。陈伟光希望能成为中文“听说读写”能力较弱的非华语生自学的工具。这工商管理学院副教授一直于学术界埋首研究,何解突然关注少数族裔学中文的困难,研究这“贴地”的网上字典?
摄影:高仲明
非华语生不识中文怎查中文字典?
陈伟光在他发明的网站示范用法。他选取例句“希望到迪士尼乐园参观”,不消一秒,页面即把句子结构分拆成一组组词语:“希望”、“到”、“迪士尼”、“乐园”、“参观”,旁边辅以拼音和英文解释。
这样简单的句子词组对熟谙中文的华人来说,看一眼就读懂其意思,但对香港的少数族裔来说,犹如火星文。陈伟光说,少数族裔的母语是乌都语、印度话、尼泊尔话等家乡话,第二语言是英文,之后才到中文和广东话,加上日常多与同乡交流,缺乏中文应用语境,学习中文就难上加难。
少数族裔要学好中文,除了在学校上课、练字和做工作纸,还有字典或电子教材。但陈伟光指,现时的字典一般只可以查单字或词语,而且要懂得该字的部首和笔顺,才能成功在一本厚厚的字典里查出来。“他们本来不识中文,怎叫他们用中文查中文,然后再看懂字典里一行行中文解释?”加上陈伟光发觉坊间网上学习工具功能分散,他说:“这个网站只查读音,那个平台则只能查意思,甚至有网站只教授古语,但没提供其他用法。”
研发“切字”功能工具 分拆句子结构
他于是决定研发一个多功能的网上字典。严格来说,也不是一个“字典”,而是一个具“切字”功能的程式,自动分析并分拆句子结构,解释该句意思和用法。他说:“以往少数族裔即使懂得逐个字查字典,但连成整句句子后,他们又不明白。所以不如为他们分析句子,再解说逐个字词。”
网站提供英文、中文及上载相片的三种输入法让外籍人士输入查考。例如输入英文句子“learn to be smart”后,程式会自动翻译成中文“学会聪明”,并辅以读音和多个意思:“学会”又解作“learn, college, learning, institute, academic”;“聪明”意思即“smart, intelligent, clean, practical, sharp”。陈伟光说,用英文解释该中文字的意思,少数族裔才看得懂。
多种输入法供查考 英文加图像解释
他知道少数族裔不懂打中文字,但若他们在网上阅读中文时,遇上不明白的句子,也可以复制原句,于这字典贴上分析;甚至随街看见一件物品,想知道其中文名称和意思,也可以拍下照片上载输入,认识其中文写法和英文解释。他随即示范,拍摄台面一个杯子,再把影像上载至网站程式,结果出现“杯子”、“Cup, mug”、“装盛水﹑酒或饮料的容器”。
而且,按下每个字,又会显示其笔划顺序、其他配字、部首、写作时的使用率、发音示范,以及附有一张图片解释该字。“用家可以跟著动画写字练笔顺,若想知道部首意思,也可以再按下去解释字源。”陈伟光举例,“杯”部首为“木”,按下其部首,便出现一棵树木图像,解释此图便是“木”的意思。如此“画公仔画出肠”,陈伟光笑说,很多少数族裔可能连最基本的中文字也认不出,需要大量英文和图像解释。
埋首学术研究多年 曾设计程式分析客服电邮
陈伟光发明这网上工具后,联络上几个关注少数族裔议题的非牟利机构,希望能入校向非华语生介绍使用方法。访问这天他正准备翌日一同入校讲解,笑说心情紧张,“好多年都未教过咁细个嘅学生。”在学术界打滚多年的他,大学主修电脑科学,熟悉语言计算学和人工智能。他自言多年坐在研究室埋头苦干,多跟学界行家接触,很少与社会外界开放交流,“再于四面墙不出去走走,人会腐化的。”陈伟光一脸认真说。
过去他专注以电脑程式分析汉字及中文段落,例如分析一段中文段落的情绪分布属愤怒、快乐或伤心等情感,而首要条件先“切字”的准确度,能否准确地使电脑懂得分拆句子结构。这些功能曾应用于商业公司的顾客回馈,“如果分析到该篇客户电邮多为负面情绪,公司会优先回复。所以,程式本来是协助公司做好客户服务。”
商学院不止为赚钱 遇退休义工朋友谈非华语生
如今陈伟光研发的中文字典则为教育功能。“有人问我business school(工商管理学院)唔系为钱嘅咩,仲咩整旧咁嘅嘢(网上字典)?我觉得‘有所为、有所不为’,business school唔系净系为钱嘅,而系知道有啲嘢你应该揾钱、有啲嘢你唔应该揾钱。”陈伟光说这项目确实并非为图利赚钱,他纯粹想运用自己的专长,协助少数族裔学中文。
陈伟光认为,中文汉语是世界最难学的语言之一,其笔划结构和字源词意精深复杂,对香港的少数族裔来说是一大难题。他一个退休朋友两年多前入校当义工为非华语生课余补习中文,亦发现他们的学习困难。“他跟我提起非华语生学中文的困难,最好就有具备ABCDE多项功能的网上工具,我说想想吧,看看怎设计研究。”
亲上教学班 再教电脑学中文
不久陈伟光申请大学的知识转移项目基金,请来团队一同研发网站。亦因为此项目,这商学院教授竟然跟著中小学教师,报读参加讲座,了解更多非华语生学中文的处境。现时,他办公室多了一行书架摆放这类中文教材,入面写满教学步骤和方法,这是他电脑科学研究以外的专业。“是的,这些是教育范畴的知识,但我要知道老师怎教中文──原来要有笔顺、部首和配词等解说!知道后才能再教电脑教少数族群学中文。”
他以往编撰程式码“教授”电脑学中文,原理跟电脑围棋程式AlphaGo相似。“人可以教识电脑强大地运作。早几年AlphaGo在一场‘人机对弈’赛事,连世界棋王都可以捉赢,让世界知道人工智能的厉害之处。”陈伟光指,电脑程式之处在短时间来吸收并分析大量内容,人则需要长时间吸收才能消化理解;而学习语言,不论人或电脑也需要“语境”才能运用出来,“你去到一个地方长期要在该语境下,用该语言才能熟练。
他于是编写大量程式码为电脑制造“语境”,先教识电脑学中文,再与团队成员设计网站页面及不同功能,教少数族裔学中文。“我一直在想,既然我能够教识电脑学嘢,点解教唔到更高智慧嘅人类呢?”如今他的网上字典收纳逾6,000个中文字,已几乎包含所有常用的字词,更成功让电脑根据程式系统准确发音,全是他电脑科学研究独到精要之处。
盼加入粤语俚语及乌都语翻译
他说若要进一步改良,除了希望加入广东话俚语,让在港少数族裔能更融入香港日常文化,亦希望能增设乌都语等多种语言输入法及解释,让少数族裔能直接以自己的母语学中文,甚至不谙中文的家长扫瞄学校通告后,有电脑翻译乌都语给他们看。
陈伟光认为,香港少数族裔因为语言障碍,一直无法顺利升学求职,导致日后也只能从事如搬运、清洁等劳动力的工作。“他们想做文职或考政府工,但中学时多数应考外国GCE程度的中文试,见工时即使识讲识听广东话,雇主见你识讲中文读写能力如初小学生,怎样聘请?”陈伟光只想少数族裔有一套更全面的中文学习工具,在香港社会有向上流的机会。“我没有想太多或获想得到认同,人到了一个年纪就要变嘅,再唔变人就会腐化喇。”
下集:陈伟光的网上字典不单适用于非华语生,也有助其他成年的香港少数族裔学中文,详看〈01社区专题〉再续故事。