【科技.未来】AI诊症匹敌人类医生 可否知疾病成因?

撰文: 孔祥威
出版:更新:

本月初,Google再次发表人工智能(AI)应用医疗研究成果,显示AI诊断乳癌的准确率能匹敌人类医生。过去几年,几乎每数个月就有一宗类似的消息,包括在糖尿病视网膜病变、肾病、肺癌、脑瘤等诊断上。当这些成果愈来愈多,人们难免期待:AI可否在诊症之余知道疾病的成因?现时单凭数据深度学习的AI,其智能能否进一步发挥?

AI拥有辨识规律的强大能力。图为2018年在北京举行的全球首场神经系统影像诊断人机大赛,AI最终胜出。(美联社)

乳癌是女性最常见的癌症。现时医学界建议女性定期接受乳房X光造影(mammogram)检查,及早检测预防,但乳房X光造影并非完美。Google研究员Shravya Shetty解释:“乳房X光造影很有效,但仍然明显有伪阴性和伪阳性结果的问题。”

本月初,科学期刊《自然》(Nature)发表了一篇论文,当中由Google Health、DeepMind及多间医疗机构组成的团队,以76,000名英国女性和15,000名美国女性经匿名处理的乳房X光造影,训练AI诊断乳癌;再分别以25,000名英国女性和3,000名美国女性经匿名处理的乳房X光造影,测试AI的诊断能力。结果,在美国女性方面,Google AI能分别减少伪阴性和伪阳性结果9.4%和5.7%;英国女性方面则减少了2.7%和1.2%。另一研究作者Christopher Kelly对结果甚为满意:“这模型比一名英国或美国放射科医生更好。”

乳房X光造影检查有伪阳性和伪阴性问题,Google研发的AI有效减低两者。(Getty Images)

Google是次成果,是近年不断出现AI诊症效果能媲美人类医生的又一个例子。Google去年5月于学术期刊《自然医学》发表研究,显示Google AI凭电脑断层扫描(CT)诊断逾6,700个肺癌个案,成功率达94%;在没有过往扫描记录下,其诊断甚至比六名放射科专家更少出现伪阴性或伪阳性结果。DeepMind去年7月宣布,他们利用美国退伍军人事务部(VA)的数据训练机器学习演算法,能够在急性肾损伤(AKI)病发48小时前,诊断出90%需要洗肾的严重病人。

本月初刊于《自然医学》的另一项研究显示,美国纽约大学、密歇根大学等组成的团队成功利用AI加快脑瘤分析诊断─传统上需要从病人取得肿瘤样本,送到实验室冷冻及染色后在显微镜下观察,一般需时20、30分钟或更长;新方式则在取得样本后以激光扫描成影像,可直接在手术室中以经训练的AI诊断,只需两分半钟,且准确率达94.6%,胜过人类医生的93.9%。美国贝斯以色列女执事医疗中心(BIDMC)就以AI预测哪些病人较可能缺席复诊或错过治疗时机,以及早介入。

“第二双眼”的AI

Google的乳癌诊断AI并非毫无缺憾,在某些人类医生诊断出癌症的个案中,AI却“走漏眼”。“有时,全部六名美国医生都发现是癌症,AI却错过了,也有相反情况。”美国西北大学研究员、该研究报告的另一作者Mozziyar Etemadi对《华尔街日报》说。但Google仍希望AI最终能临床应用,现正确保研究成果能适用于不同族群。

Shetty强调,AI的作用是帮助放射科医生,而非取代他们:“他们各有强项,是互补关系。有些个案,放射科医生能成功诊断而AI错过了,反之亦然。将两者结合可增强整体的准确率。”例如,在美国,乳房造影一般由一名放射科医生判读,但英国则要求最少有两名放射科医生,若两人意见不一致,则进一步由第三甚至第四名医生检查。Kelly说:“模型表现比英国和美国的单一放射科医生更好。在英国……我们在统计上也做到同样水平,但没有更佳效果。”

美国西北大学的AI系统标示出乳瘤的所在位置。(路透社)

根据英国皇家放射科医学院(RCR)的数据,该国医疗人手短缺,缺乏至少1,104名放射科医生。现时英国有542名乳房放射科专科医生,但医院中仍有8%的岗位空缺。Google Health总监Dominic King认为,若第二名诊断医生由AI顶上,有助减轻人手压力,并透露有些放射科医生因而希望Google研发扫描筛查的AI:“有一群英国的乳房放射科高级医生在三至四年前联络我们,说他们认为能够在这个领域使用AI,也应该开始思考科技如何支持医疗服务的可持续性,因为现时延迟诊断的情况太严重。”故此,研究还评估演算法可如何与人类放射科医生合作。在88%的案例中,AI与人类医生的诊断相同,换言之,只有12%的扫描需要再由一名人类医生诊断。

没有参与研究的RCR临床放射科副主席Caroline Rubin强调,不论这类研究结果如何成功,AI都无法完全取代放射科医生,但可以辅助他们:“就如其他医疗服务,乳房造影乃至于整个英国放射科都面临人手短缺问题,并渴望得到帮助。AI程式不会解决人类员工不足的危机,因为放射科医生及造影团队的工作远不止于判读扫描,但以AI作为第二双眼睛和安全网,毫无疑问有所助益。”

英国乳癌检测要由至少2名医生诊断,惟人手紧绌,AI或可以作为人类医生的“第二双眼”辅助。(Getty Images)

心脏科医生及遗传学家Eric Topol则在去年3月出版的著作《Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again》中提出,AI可让医生有更多时间接触病人,修复医患关系。他对科技媒体The Verge解释:“病人其实没有得到公道对待,因为看医生的时间实在太短,甚至连眼神接触都没有。也不只是时间,医生变成数据文员而分心,无法成为好的聆听者……现在有一个前所未有的新机会,让我们把握和恢复已失去的关怀照顾。”

要把AI应用在医疗之上,监管是必须通过的一关。台湾长庚医院医疗人工智能核心实验室主任郭昶甫就向《天下杂志》提出对AI“黑箱”的经典质疑,即AI模型建立过程复杂,而且无从得知它如何作出决定,使用时或会出现信任问题,一旦错判,如何检验和追究责任也成疑问。他举例,每天能接受手术的人数有限,医院按病情的严重情况决定谁能先进手术室,但若由AI透过辅助诊断来安排顺序,“我们能不能信任AI所作的决定?”

台湾卫生福利部食品药物管理署署长吴秀梅反指,即使AI的判断过程不透明,只要能确认它的准确程度就能把关:“就像我不会造车,可是我会开车,就知道车子有没有出毛病,道理是一样的……要回到我们的目的,就像车子能不能正常上路一样。”

有医生质疑,AI如何得出判决无从得知,若由它决定手术顺序,或有追究责任的困难和信任问题,但也有监管者认为AI够准就可。图为莫斯科一间儿童医院手术室。(Getty Images)

“深度”学习的AI

然而,对一些更着眼于基础前沿的专家来说,AI能否就其判断作出解释,意义远不止于信任问题,而是关乎AI从根本上到底有多少潜力、可否迈向真正智能。

深度学习利用人工神经网络,以数学的方法形成和加强事物的关联,大致模仿人类神经元和突触的方式“学习”。数据如影像和声音会被输入到神经网络,训练它直至能以正确的方式反应。问题是,深度学习及大部份的机器学习方式,都只懂在庞大数据中找出规律和关联,但关联不等同任何因果关系。何况,即使数据中可能蕴含因果关系,通常是暧昧模糊,甚至更多时因为变项缺失、观察方法、杂讯或偏见等而难以确立。因此,现时绝大部份机器学习系统都缺乏因果关系的推论能力。

固然,在一些领域,AI仍能够发挥它辨识规律的强大能力,心理学家Robin Hogarth称之为“友善的学习环境”。在这个环境下,规律会一而再再而三出现,反馈通常快速而准确─因此,现时的机器学习系统通常都是非常专门、有针对性、为完成某个特定任务训练而成。一个深度学习程式可被训练成能极准确辨认图片中的物件,只要它看的训练影像足够多和有足够的电脑运算能力。又如象棋和围棋,棋子在确切定义的边界和规则下移动,AI可在这类领域压倒人类,不论是1997年的深蓝(Deep Blue),还是2016年的AlphaGo。

AI在一些规律重复、规则和目标清晰的应用有可发挥强大能力,例如AlphaGo在围棋中连番击败人类棋手。(美联社)

图像诊症亦如是,数据组相对上具结构而独立,要完成的任务也有清晰定义,更莫说AI能24小时工作,只是它无法解释为什么判断某张影像表示患病。但是,现实中并非所有医疗领域都如此“友善”,很多医疗应用需要回答的问题是,会令治疗更复杂的共病是什么?若某病人不吃某种药改吃另一种药,会怎样呢?Hogarth形容这些为“恶劣”的学习环境。

在没有针对真实情况的外在模型引导下,以数据为中心的AI有何局限?2015年曾有一项研究想制造一个肺炎风险评估AI系统,就是一个被广为引用的例子。该AI从真实医疗数据“学懂”的,竟然是哮喘患者不太可能死于肺炎。研究人员追查这奇怪结果后发现,AI忽略了在数据背后,医院一项实际措施:同时患有哮喘和肺炎的病人会被直接送到深切治疗部,因而接受更高规格的照料,相比其他没有得到相同照顾的哮喘病人,自然死亡的可能性较低。但该模型却因为这缺憾,错误建议这些明明高危的哮喘病人不应该被送往深切治疗部。

虽然AI从扫描诊症的能力,已经能与人类匹敌,但一些专家指出,AI以现时深度学习无法知到因果,无法知道疾病成因,甚或在实际医疗领域中回答更广阔的难题。(Getty Images)

2018年,麻州理工学院(MIT)电子工程和计算机科学副教授David Sontag在博劳德研究所(Broad Institute)的演说中,把这种只从临床数据学习的模型称为“非结构”的,意指它欠缺一个由工程师或科学家编定的外在结构,来表示不同变项之间的因果连结。他认为,最多只能寄望它们与人类医生有相若的能力,即可以是一个不可靠的资讯来源,以及很多时会作出错误的判断。

深度学习演算法在泛化(generalization)方面也不在行,即是要把在某个脉络下学习所得应用到另一脉络时会出现困难。2018年图灵奖得主Yoshua Bengio解释:“系统性泛化是人类把已知概念普遍化的能力,所以,它们可以以新的方式结合。现时机器学习不知道如何做到,所以你经常会有以某个特别数据组训练的问题。例如你在某个国家训练AI,但将它应用在另一个国家,就需要泛化和迁移学习(transfer learning)。你如何训练出一个神经网络,即使你把它转移到新的环境,它仍然能够运作良好或快速适应?”

继续阅读︰

【科技.未来】不问“为什么” AI可有真正智能?

相关文章︰

从数据寻找最佳配方 AI可满足人类味蕾?

AI研发新口味 人类厨师将被取代?

当AI能预防受伤 分析比赛 将如何改变运动产业?

AI任球探裁判评述 成也数据败也数据?

阻止不当内容与自杀 AI协助社交媒体“消毒”

社交网络以AI“消毒” 但AI可判断“不当”内容?

新药研发低迷 AI可如何颠覆生态

AI用数据研制新药 反而是它的最大局限?

未来制药专家 将由AI取代人类?

上文节录自第198期《香港01》周报(2020年1月20日)《诊症媲美医生 但AI可知疾病成因?》

更多周报文章︰【01周报专页】

《香港01》周报,各大书报摊及便利店有售。你亦可按此订阅周报,阅读更多深度报道。