应付DSE“死亡之卷”有救? 中大研错字检测系统助考生“升呢”

撰文: 胡家欣
出版:更新:

DSE (中学文凭试)中文科有“死亡之卷”称号,除了卷目的难度外,考生亦容易因经常犯错别字及乱用成语而大量失分。
香港中文大学工程学院应香港应用科技研究院委托合作,花近两年时间研发错字和粤语检测系统,期间汇入过千份DSE卷和学校模拟试卷、中小学教科书与字典中过百万词汇,以识别中文写作四大问题,包括错别字、简体字、倒装及粤语用法。
团队希望未来能引入教育界辅助师生教与学,年内将系统转化为办公室软件的插件予公众使用。

中大系统工程及工程管理学系研究员冯沛璋(左)与中大工程学院副院长(外务)黄锦辉于记者会上,介绍由工程院及文学院学生、工程师等5人团队研发的错字和粤语检测系统。(胡家欣摄)

DSE中文写作卷一直为考生错别字的重灾区。中大工程学院副院长(外务)黄锦辉表示,2012年第一届DSE中文卷反映本港学生写作水平较差,特别名校生在学习中文上遇有困难,有见及此,香港应用科技研究院委托其学院研发错字和粤语检测系统,辅助师生教与学,提升学生中文写作能力。

首系统加入口语识别元素

中大系统工程及工程管理学系研究员冯沛璋表示,系统以大数据(Big Data)及深度学习(Deep Learning)为基础,经演算及分析,识别出中文句子中的错别字、简体字、倒装及粤语用法,准确度达8成。

错字和粤语检测系统

例子

错别字

“端儿”→“端倪”

“侧隐之心”→“恻隐之心”

简体字

“之后”→“之后”

粤语用法

“冲凉房”→“浴室”

“钟意”→“喜欢”

倒装用法

“素质”→“质素”

“紧要”→“要紧”

注:必须于系统输入10个字以上的句字才能作检测

图为程式系统介面,用家需输入10个字或以上的句子,或一篇文章才能作检察。(胡家欣摄)

系统准确度达8成 惟成语潮语难判别

不过,系统仍有一定限制,例如未能判别由英文字母组成的潮语如“Hea”、部份四字成语如“终身平等”,正写为“众生平等”、辨识正字后亦尚未附有注解。黄锦辉解释,目前系统“基本盘”为语文分析应用,针对DSE考生写作错误,故未有涵盖英文写法的广东话潮语;系统亦只能基于上文下理才能判别错字,故单以“终身平等”四字,难以断定为错,故学生于自学后,仍需要老师作为辅助解说。

黄称,系统犹如“人的学习一样”,须继续输入资料更新,丰富词汇句式。他续指,系统将由应科院及团队决定发布平台及收费,但计划未来可开放于中、小学校使用,以及转化为办公室软件的插件让公众使用。