中大电子工程X社创|以AI还原病人声音 扭转不可能的沟通
对于一般人而言,透过语言表达自我,看似理所当然,但对于失去说话能力的病人却成奢望。“语音合成技术虽无法扭转病情,无论多像真人,亦只是电脑发出的声音。但重组声音并非无意义,病人可以再次以声音与他人沟通,或许能为生活带来一丝希望与温暖。”研发“个人留声机”的香港中文大学电子工程学系李丹教授说。
摄影:郑子峰
电子工程学出身,却对广东话兴趣浓厚,李教授修读博士课程时,第一个项目便是有关广东话的语音识别研究,转眼已钻研了30多年,至今仍觉有趣。两年前,他的团队首次接受委托,为癌症复发、即将接受声带切除手术的Jody保留声音。团队至今已为6名癌症病人,利用人工智能(AI)语音合成技术,设计“个人留声机”。透过专属的手机应用程式,用家可自行输入文字,文字会再转化成用家的声音并发声,语音更可分享至WhatsApp等通讯软件。
其中一位舌癌复发的女士得悉Jody的个案后便向李教授团队求助,希望于接受声带切除手术前完成录音,以制作语音模型。李教授忆述当时处处受限,因病人已切除大部分舌头,发音受影响,同时身体状况不理想,加上时间紧逼,最后可用的录音只得30分钟。“一听录音便知道情况不乐观,但也要尽力试。例如以AI借用其他人的声线,好处是咬字清晰,但却与原声具差别;又试过利用病人的声音,同时纠正一部分发音。多番尝试后终于成功制作出声线相似又比较清晰的AI模组。”
成人达己
团队研发的同时,病人亦正与死神搏斗,两次进出深切治疗部。李教授坦言,“个人留声机”虽已完成,但用家却未能试用,大家只能静待她的消息,心情非常复杂。几个月后,病人家属联络李教授,他即急不及待分享成果。病人更于去年圣诞节的宗教见证会中,利用“新声音”配合简报分享经历。病人的正面回应无疑是对团队的一大认可。两年过去,“个人留声机”的发展愈趋成熟,甚至已出现中英双语版本。李教授却谦虚地说,坊间也许认为中大团队的技术贡献甚大,但到底对病人的生命有多大影响,不应由他单方面衡量。相反,研发过程为他的人生观带来启发。“其实我个性较悲观,但病人积极的态度感染了我,学懂凡事尽做、抱有希望。他们每一位都是生命勇士,面对着生与死的抗争,那份积极的力量正是我们继续坚持的动力。”其中一名因患癌而需切除声带,向团队求助的孙律师更与李教授成为朋友,孙律师的太太更鼓励团队向外推广“个人留声机”。于是,李教授、孙太与开发“个人留声机”应用程式的创科公司创办人合作开设了一间公司。
语音合成技术具庞大商业潜力,成立公司却不为赚钱。李教授专注于小众利益,希望能更有系统地照顾到现有的求助个案,逐步扩大援助范围。“我的理念好简单,若中大不做,其他人未必会做。大学的研究虽具实用价值,但距离实践还差一点。而‘个人留声机’比较特别,是大学研究中少有接近可以使用的成品。”团队得到利希慎基金的资助,增添高性能计算服务器GPU,大大提高工作效率。
早于“个人留声机”面世前,团队已曾利用人工智能结合语音技术,制作内容丰富的有声儿童故事“故事点播机”。李教授于2019年获得创新科技基金,与中大校友、著名创新企业家林晓锋博士合作,开发AI儿童有声故事生成技术。2020年亦获得中大知识转移项目基金(KPF)资助,开展“个性化儿童故事频道”的社区项目,推出广东话有声故事应用程式。家长和小孩不但可以聆听预先制作的有声故事,更可以发挥创意,自行创作和修改故事内容,促进亲子互动,也可以帮助儿童学习中文。
(资料由客户提供)