理大研究发现模拟人脑评估句子训练 有助提升AI大语言模型理解力

撰文: 凌雯静
出版:更新:

生成式人工智能(Gen AI)热潮迅速冒起,针对训练Gen AI的大语言模型研究亦有新进展。理工大学最近一项研究发现,如果运用模拟人脑评估句子连贯性的方式“下一句子预测”(Next Sentence Prediction,NSP)来训练大语言模型,能提升其理解语言的表现,达到更高效益,并更加接近人类智慧。研究已刊登于国际科学期刊《Science Advances》。

理大人文学院院长兼冼为坚基金人文与科技讲座教授李平教授领导这次研究,指NSP可以改进大语言模型的人性化水平,更加接近人类智慧。(理工大学提供图片)

现时大语言模型主要依赖于上下文单词预测单一型别的训练模式,如聊天机器人ChatGPT都是如此应用,惟人类平时理解语言时,不仅只会预测下一个单词,还会整合自然语言理解中的高层次信息。而理大研究则将NSP纳入大语言模型的的预训练,并检验模型资料与脑活动的相关性。

团队在研究中训练了两个模型,两者均包含单词预测,但一个具有NSP 增强功能,另一个则没有。研究发现NSP用来预测前后句子怎样互相关联,与人类语义理解的神经模型非常吻合,与只学习单词预测的模型相比,NSP增强模型与脑资料在多个脑区显示出更一致。

现时大语言模型主要依赖于上下文单词预测单一型别的训练模式。(Reuters)

领导研究的理大人文学院院长兼冼为坚基金人文与科技讲座教授李平教授表示,研究将模型变得更像人脑般不需要海量资料,能提高效益,而NSP可以改进大语言模型的人性化水平,更加接近人类智慧。

李教授指,研究亦解释了如何利用大语言模型研究人类大脑加工语言的高阶机制,从而促进人工智能和认知神经科学领域研究的互动与合作,借此推动未来以人工智能为导向的大脑研究及受人脑启发的人工智能研究。