【科技.未来】预测蛋白质结构神准 AI AlphaFold有何重大意义?
德国马克斯普朗克发育生物学研究所总监Andrei Lupas的团队过去近十年都在试图找出一种古菌(Archaeon)中的蛋白质结构。这种蛋白质跨越存在于细胞膜—部份在细胞内,部份在细胞外,令研究团队难以在实验室中确定其形状。在本年Lupas担任评审的第14届“蛋白质结构预测关键评估”(CASP)比赛中,他把这难题设为参赛题目,编号为427的DeepMind团队的AI仅花半小时就给出答案:一个分为三部份的蛋白质详细图像,中间有两条长长的螺旋臂。这个预测结构与Lupas团队的实验数据相匹配。
准确预测蛋白质结构
这比赛在1994年创办,两年一度,主办方会挑选约100种蛋白质的氨基酸序列,这些蛋白质的形状和结构均已在实验室中鉴定但未曾公开,然后由来自世界各地的参赛者设法运算软件来预测它们的正确立体结构,并以“全局距离测试”(GDT)来评分,分数从0到100,借以反映参赛队伍预测的结构与实验室中识别出的蛋白质实际形状之间的接近程度,若高于90分,表示其准确度可与实验方法匹敌。本届比赛结果于上月底公布。AlphaFold有三分之二GDT高于90,平均得分高达92.4。CASP共同创办人、马里兰大学计算生物学家John Moult指蛋白质折叠是过去五十年困扰科学界的难题,赞赏AlphaFold的表现是重大突破:“某程度上,问题已经解决了。”
从围棋到“砌拼图”
AlphaFold使用了某种“注意”(attention)神经网络,亦即让深度学习系统注意特定的输入并增加相关权重。Jumper形容这种做法就像“砌拼图”:“有些图块你可以十分肯定地拼合,然后你会得出不同的局部图形,最后想办法接合它们。”他说AlphaFold的神经网络学会推理蛋白质结构的几何形状、空间,以及如何接合那些它根据DNA序列分析下认为会靠在一起的氨基酸对。它还可评估自己猜测的结构有多准确可靠。利用公开的蛋白质数据库Protein Data Bank内17万种已知的蛋白质结构,加上相当于一、两百个图形处理器(GPU)的运算力,他们最终花数星期训练出最新的AlphaFold。
AlphaFold的表现对DeepMind、甚至AI整体发展有重大意义。DeepMind几乎是靠游戏而在近年闻名,它最初建立起的AI能以超越人类的水平玩经典的Atari“街机”游戏;之后转战棋盘,AI AlphaGo在2016年击败韩国围棋九段棋手李世乭。但就如Hassabis指出:“游戏只是一个训练场……为了创造新知识的训练场。”AlphaFold预测蛋白质折叠的能力,标志着DeepMind、甚至AI已从玩游戏进展至足以真正解决具现实意义的科学问题。
从根本上改变医学科研
这之所以重要,是因为解决“蛋白质问题”将从根本上改变医疗和生物科研。在医疗上,正如Moult指出:“了解疾病和寻找新疗法的最有效方法之一,就是研究所涉及的蛋白质。”DeepMind只需几日就可从一段DNA序列中找出所要的蛋白质结构,比现有技术快得多。此外,很多药物都是透过模拟分子立体结构、观察某些分子与目标蛋白质的相互作用而设计出来。所以,药物研发将会加快,且更为精准。DeepMind正计划研究利什曼原虫症(leishmaniasis)、昏睡病、疟疾等由寄生虫引起的热带疾病,因为它们与许多未知的蛋白质结构有关。
更重要的是,这可加强我们应对瘟疫的能力:一方面,可加速了解病源,例如AlphaFold在今年3月已预测了几种与新冠肺炎病毒相关、过去未知的蛋白质结构,其中两款称为ORF3a和ORF8的结构均与实验确认结果极之相似;另一方面,有望加速老药新用或全新疫苗的研发过程。
AI更可能会改变科研方法,并带来更多新知识,包括科学家现时仍所知甚少的蛋白质相关知识。蛋白质数据库UniProt现有1.8亿个蛋白质的序列;但囿于一直以来进行的实验确认过程,Protein Data Bank只有约17万种已知的蛋白质结构。AlphaFold所显示的潜力或令生物学家更好地利用AI作为科研工具。本年生物学界有逾21,000篇涉及使用AI的论文,年增长率近50%。
上文节录自第245期《香港01》周报(2020年12月21日)《华语网络文学二十年 从消闲读物到文化输出》。如欲阅读全文请按此试阅周报电子刊,浏览更多深度报道。