弱智竟成第一!科研团队训练语言AI 百度弱智吧资料模型跑分最高

撰文: 林卓恒
出版:更新:

弱智竟成第一!科研团队训练语言AI 百度弱智吧资料模型跑分最高|AI可说是近年科技的焦点,由语言AI模型到AI绘图、AI剪片、AI助手等等,能在生活中应用AI技术的地方越来越多,世界各地的科研团队和技术人员也在积极开发AI。而最近内地就有团队研究如何提升中文AI语言模型的性能,运用百度贴吧“弱智吧”的资料来训练AI,结果却令人出乎意料地好。

百度贴吧著名胜地“弱智吧”

“弱智吧”是内地著名讨论区“百度贴吧”的其中一个贴吧(版块);一般而言百度贴吧的名称代表该贴吧的讨论主题,但弱智吧当然不是真的弱智人士的集中地或讨论智力障碍的地方,而网民“耍白痴”开玩笑、分享无聊笑话(烂gag)和对答的集中地,感觉类似香港高登讨论区、连登讨论区上的“假胶”;只是在弱智吧内几乎没有认真讨论的帖文,全都是在耍弱智。

一个典型的“弱智吧”帖文和回复。

👉3DS Wii U中止互联网服务|网民数当年玩过咩game:MH4G系我嘅青春

让人意想不到的是,耍废、冷笑话的集中地“弱智吧”,竟然能成为语言AI训练模型的良好学习资料。内地网民“量子位”日前就在资讯网站“虎嗅”上撰写文章分享,指内地一个由中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队,使用各个互联网平台的帖文来训练语言AI模型,然后以该模型来跑分测试其性能。

https://www.huxiu.com/article/2875966.html

据悉这项研究最初是为解决中文大模型训练中的诸多问题:例如训练用的中文资料集往往是从英文翻译过来,未能很好地契合中文的语言习惯和文化背景;以及资料集质量难以保证、资料量小、覆盖领域不全面等问题,容易令训练出来的语言模组出现事实性错误。

团队从中文网际互联网的各种知识源头及社交平台如知乎、豆瓣、百科、小红书等收集资料,经过挑选及审核之后,成为一份多样化的中文指令微调资料集COIG-CQIA,而“弱智吧”亦是其中一个资料来源。

零一万物Yi系列AI模型

👉Mario也输给她!英国电影学会票选最具代表性游戏角色 网民不认同

团队接下用这些来自不同平台的资料集来训练“零一万物Yi系列”开源大模型以测试其性能,结果发现使用“弱智吧”帖文训练的语言AI,跑分成绩比使用百科、知乎、豆瓣、小红书等社交平台来训练的AI要高得多,甚至比团队用特意挑选的资料集所训练出来的模型的成绩都要好。

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,已经是令人意外的佳绩了;而到了规模较大的Yi-34B模型测试,弱智吧版本的表现可谓一骑绝尘,在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。用弱智吧资料训练出来AI模型仅在改写和数学任务上没能取得最高分,但成绩亦在前列。

Rouzhiba就是弱智吧。https://arxiv.org/abs/2403.18058

最让人意想不到的是,在安全评估上弱智吧版本也能排上第二;而在测试中弱智吧AI的编程能力(写code)也超过了使用专业编程技术问答社区“思否”资料训练出来的AI。

https://arxiv.org/abs/2403.18058

对于本以为是“弱智”的资料却训练出最高性能的AI模型,研究人员认为原因可能是“弱智吧的问题增强了AI的逻辑推理能力,从而令其遵循指令任务的能力有所提高。”

👉《星之后裔》 首抽攻略|快刷首抽方法 开局最强角色推荐|手游

“弱智吧Benchmark”无厘头问题帖文成AI测试工具

研究公开之后除了网友对“弱智成最强”一事感到莞尔之外,也有人认真讨论起为何弱智吧有如此神奇的功效。有人认为原因是弱智吧题目的性质像“脑筋急转弯”:事实上在今次研究之前,“弱智吧”中的问题就经常被网民拿来测试AI模型,因为这些问题往往像是“IQ题”般带有陷阱,刚好可以用来测试AI的逻辑能力高低。

例如早前内地的“文心一言”AI模型,就被网友以大量“弱智吧”的帖文来测试,结果也是令人哭笑不得。如以下的问答示例,2023年3月的文心一言还无法理清问题的不合理之处、呆呆地直接回答问题,到后续版本才能正确回答。

互联网图片

👉 Apple AirTag 又建一功!日本网友爱车失窃险被㓥 靠它极速寻回

有指弱智吧问题如今已成每个新模型发布前必须要过的一关,被戏称为“弱智吧Benchmark”。

亦有人认为弱智吧如此“高能”的原因是零一万物Yi系列这种大模型正常已经以许多资料训练过,再用知乎、小红书等一般平台的资料来训练也没什么效果,反而是弱智吧的非传统文字才对AI产生了训练效果。

https://twitter.com/9hills/status/1775358963724554410

如果有兴趣了解弱智吧资料究竟如何达成这一成就,可以查看该当论文