【科技.未来】研究内容欠透明 AI进展陷“复制危机”

撰文: 孔祥威
出版:更新:

AlphaFold要在医疗和学术上带来影响,前提是DeepMind需分享其研究成果。现时,AlphaFold的详细运作原理和完整数据仍未透过同侪评审(peer review)期刊发表。不过,DeepMind行政总裁Demis Hassabis声称,正考虑以“可扩大规模”的方式,让其他人存取AlphaFold系统,并会确保AlphaFold能够对社会“产生积极影响”。但他表示具体做法尚未厘定,公司将于明年某个时候公布。

DeepMind会否或如何分享研究成果?这一点之所以重要,是因为有些学者观察到AI研究界正出现一场“复制危机”:很多实验都没有公开程式码或详细资料,让其他研究者能复制重现。例如《自然》(Nature)期刊10月中刊登了31位科学家共同撰写的文章批评指,Google Health团队在今年1月于同一期刊发表的关于其AI成功在医学图像中找到乳腺癌征兆的论文中,只披露了很少资讯。该文章的第一作者、多伦多大学医疗生物物理学副教授Benjamin Haibe-Kains解释:“我们不是特别针对这项研究,而是多年来目睹一种趋势,而这种趋势开始真正困扰我们。当我们看到Google那篇论文时,察觉到这是又一个例子,又一次有非常知名的期刊发表一个令人振奋、却与科学无关的研究。这更像是一个广告。”

有学者不满,现时愈来愈多AI研究没有分享程式码和详细数据,担心不利学术及AI应用的发展。(DeepMind)

行业投资者Nathan Benaich和Ian Hogarth自2018年起每年发表“AI状况”报告。根据本年报告,只有15%的AI研究有分享模型程式码,且业界的情形较学术界严重,DeepMind和另一AI公司OpenAI更遭点名批评。Facebook AI软件工程师Robert Stojnic创立的Papers with Code网站统计,只有25%AI论文有分享程式码。一项研究只有被其他学者复制再现,才可验证和检查实验结果是否可靠,并可让其他研究者以此为基础,进一步推动研究。但据Facebook AI Research及加拿大麦基尔大学(McGill University)电脑科学家Joelle Pineau观察:“愈来愈难分辨出哪些是可靠的结果,哪些不是。”

学者冀建立研究规范

Haibe-Kains补充,即使研究者肯分享程式码,也不足以再现实验,因为建立AI模型涉及许多参数微调,若缺少了描述模型如何训练和调整的元数据(metadata),即使有程式码也可能无用。Pineau解释,以某种强化学习演算法为例,使用不同的初始随机设置分别运行两次,可得出不同的结果,且实验若运行大量次数,可能只会汇报最佳结果。拥更多运算能力的研究者能运行更多次,令实验结果看来更理想。“但论文不一定会提供实验运行了多少次,从中取得的结论也因而截然不同。”

一些学者正推动AI研究透明化,鼓励分享程式码,惟数据分享将涉私隐问题。(Getty Images)

为了推动改变,Pineau去年为国际AI会议NeurIPS设计了一张清单,鼓励研究者在论文中提供一些经常省略的项目,例如在选择出最佳模型之前训练了多少模型、使用多少运算力、要附上程式码和数据的连结等。Papers with Code同样在推动实验资料透明化,该网站本身供研究者同时提供论文及程式码的连结。本年它再与流行的论文预印资料库arXiv合作,自10月起,arXiv上的所有机器学习论文都附上了Papers with Code章节,可直接连结到作者提供的程式码。

牵涉知识产权和私隐

但是,分享数据似乎更难,尤其是业界的研究,因为很多时牵涉知识产权和私隐。假设Facebook以Instagram用户的照片做研究,公开和分享数据就存在障碍;涉及健康数据的研究也面临同样问题。当Haibe-Kains要求Google Health团队分享其癌症筛查AI的程式码时,该团队除了以AI需更多测试为由拒绝外,还表示他们无权分享所使用的医疗数据。但Haibe-Kains认为这不是毫无出路,例如他提议建立一个认证过程,允许少数独立的审计人员存取实验数据,为其他研究者核实结果。

(节录)

上文节录自第245期《香港01》周报(2020年12月21日)《华语网络文学二十年 从消闲读物到文化输出》。如欲阅读全文请按此试阅周报电子刊,浏览更多深度报道。

245期《香港01》周报精选内容:

【封面报道】美欧中不约而同反垄断 迟来的科企监管革新

“有形之手”出手 马云们颤抖了吗?

全球掀起反垄断风潮 何时轮到香港?

康健中心成效未如预期 基层医疗缘何停滞不前

华语网络文学二十年 从消闲读物到文化输出

当机械人炒得一手好菜 职场自动化 员工出路何在?

攻克半世纪难题 AI或掀医学科研革命

2020年电影业回顾 票房暴泻 改变放映模式