【科技.未来】研究内容欠透明 AI进展陷“复制危机”
AlphaFold要在医疗和学术上带来影响,前提是DeepMind需分享其研究成果。现时,AlphaFold的详细运作原理和完整数据仍未透过同侪评审(peer review)期刊发表。不过,DeepMind行政总裁Demis Hassabis声称,正考虑以“可扩大规模”的方式,让其他人存取AlphaFold系统,并会确保AlphaFold能够对社会“产生积极影响”。但他表示具体做法尚未厘定,公司将于明年某个时候公布。
DeepMind会否或如何分享研究成果?这一点之所以重要,是因为有些学者观察到AI研究界正出现一场“复制危机”:很多实验都没有公开程式码或详细资料,让其他研究者能复制重现。例如《自然》(Nature)期刊10月中刊登了31位科学家共同撰写的文章批评指,Google Health团队在今年1月于同一期刊发表的关于其AI成功在医学图像中找到乳腺癌征兆的论文中,只披露了很少资讯。该文章的第一作者、多伦多大学医疗生物物理学副教授Benjamin Haibe-Kains解释:“我们不是特别针对这项研究,而是多年来目睹一种趋势,而这种趋势开始真正困扰我们。当我们看到Google那篇论文时,察觉到这是又一个例子,又一次有非常知名的期刊发表一个令人振奋、却与科学无关的研究。这更像是一个广告。”
行业投资者Nathan Benaich和Ian Hogarth自2018年起每年发表“AI状况”报告。根据本年报告,只有15%的AI研究有分享模型程式码,且业界的情形较学术界严重,DeepMind和另一AI公司OpenAI更遭点名批评。Facebook AI软件工程师Robert Stojnic创立的Papers with Code网站统计,只有25%AI论文有分享程式码。一项研究只有被其他学者复制再现,才可验证和检查实验结果是否可靠,并可让其他研究者以此为基础,进一步推动研究。但据Facebook AI Research及加拿大麦基尔大学(McGill University)电脑科学家Joelle Pineau观察:“愈来愈难分辨出哪些是可靠的结果,哪些不是。”
学者冀建立研究规范
Haibe-Kains补充,即使研究者肯分享程式码,也不足以再现实验,因为建立AI模型涉及许多参数微调,若缺少了描述模型如何训练和调整的元数据(metadata),即使有程式码也可能无用。Pineau解释,以某种强化学习演算法为例,使用不同的初始随机设置分别运行两次,可得出不同的结果,且实验若运行大量次数,可能只会汇报最佳结果。拥更多运算能力的研究者能运行更多次,令实验结果看来更理想。“但论文不一定会提供实验运行了多少次,从中取得的结论也因而截然不同。”
为了推动改变,Pineau去年为国际AI会议NeurIPS设计了一张清单,鼓励研究者在论文中提供一些经常省略的项目,例如在选择出最佳模型之前训练了多少模型、使用多少运算力、要附上程式码和数据的连结等。Papers with Code同样在推动实验资料透明化,该网站本身供研究者同时提供论文及程式码的连结。本年它再与流行的论文预印资料库arXiv合作,自10月起,arXiv上的所有机器学习论文都附上了Papers with Code章节,可直接连结到作者提供的程式码。
牵涉知识产权和私隐
但是,分享数据似乎更难,尤其是业界的研究,因为很多时牵涉知识产权和私隐。假设Facebook以Instagram用户的照片做研究,公开和分享数据就存在障碍;涉及健康数据的研究也面临同样问题。当Haibe-Kains要求Google Health团队分享其癌症筛查AI的程式码时,该团队除了以AI需更多测试为由拒绝外,还表示他们无权分享所使用的医疗数据。但Haibe-Kains认为这不是毫无出路,例如他提议建立一个认证过程,允许少数独立的审计人员存取实验数据,为其他研究者核实结果。
(节录)
上文节录自第245期《香港01》周报(2020年12月21日)《华语网络文学二十年 从消闲读物到文化输出》。如欲阅读全文请按此试阅周报电子刊,浏览更多深度报道。