《新英格兰医学杂志》深度解读医疗AI——未来可期
导读:资深专家会诊这样的系统听起来很难做到,但这正是机器学习应用于医疗所展现的前景——集合几乎所有临床医生制订决策时蕴含的智慧以及数十亿患者的诊疗数据,为每位患者的治疗提供指导。
“过去十年,很多人都对医疗系统提出建议和要求……但这些建议主要是对现有资源进行重组或再分配。但即使以最佳方式重组,现有医疗资源也无法满足层出不穷的新需求。计算机技术的不断创新和进步,也许可以打破有限医疗资源造成的困局。”
这是AI独角兽入局医疗的自白书,还是政府工作报告中关于医疗改革的论述?
其实,这是《新英格兰医学杂志》(NEJM)在1970年发表的“Medicine and the computer— the promise and problems of change”一文中对计算机在医学领域的应用前景进行的探讨[1]。
近半个世纪过去了,计算机技术为医疗系统带来的变革有目共睹。然而,50年前的很多设想尚未成为现实。那么,现在如火如荼的AI能否在医疗系统引入新的突破,是否能真正“打破有限医疗资源造成的困局”?
2019年4月4日,NEJM发表题为“Machine Learning in Medicine”的综述,文中详细介绍了什么是机器学习、机器学习如何帮助医生以及机器学习应用于医疗所面临的主要挑战等[2]。
如果您想了解AI乃至科技如何在中国医疗中发挥作用,请您跳至文末彩蛋。
在介绍这篇综述之前,让我们首先了解三个有千丝万缕的联系但又有细微差异的三个概念:人工智能(artificial intelligence)、机器学习(machine learning)和深度学习(deep learning)。用最简单的话概括,机器学习是实现人工智能的一种方法,而深度学习是实现机器学习的一种技术。
访问《NEJM医学前沿》官网、APP和微信小程序(点击本文开头图片,即可直达小程序),阅读全文翻译。
下面这个假想但常见的诊疗场景,充分体现了当前诊疗模式的不足之处。
一名49岁患者,在自己肩部发现了一处无痛皮疹,几个月后被诊断为脂溢性角化病。后来,这处皮疹发展为深色斑疹,在一次结肠镜筛查时被护士建议接受检查。皮肤科医生对斑疹进行活检,病理报告为非癌性色素性皮损。但该医生仍不放心,于是要求二次活检,最终诊断出侵袭性黑色素瘤。肿瘤科对患者启动全身性化疗,但患者的一位医生朋友问其为何未接受免疫治疗。
如果大大小小每一项病症均由资深专家团队进行诊断和治疗,那该多好啊!患者会得到最有效的治疗药物;漏诊误诊会大量减少;罕见病、疑难杂症也会第一时间被推荐到最专业的医生手中。
但遗憾的是我们没有那么多的医学专家可用。就算是远程医疗,专家也需要花费不少时间来了解患者的病史,而且远程医疗还涉及隐私法案方面的问题。
资深专家会诊这样的系统听起来很难做到,但这正是机器学习应用于医疗所展现的前景——集合几乎所有临床医生制订决策时蕴含的智慧以及数十亿患者的诊疗数据,为每位患者的治疗提供指导。
什么是机器学习
传统的计算机程序,是将知识经验浓缩提取成明确的代码,通过代码明确指导计算机如何处理数据和做出决策。但是,医学领域广泛且复杂,很难从庞杂的相关信息中提取规则。
而机器学习是从实例中学习,没有特定的规则编程。将真实病例以输入(称为特征)和输出(称为标签)的形式提供给计算机,计算机利用通过观察进行学习的算法,确定如何执行从特征到标签的映射,以便应用新的、以前从未见过的输入(例如未经人类读片的病理切片)来正确执行任务,这一过程称为监督学习(supervised machine learning);还有其他形式的机器学习(图1)。表1举例说明了在经同行评议的研究基础上,输入-输出映射的临床实用性,或者现有机器学习能力经简单扩展后的临床实用性。
图1. 监督学习概念一览
表1. 驱动机器学习应用的输入(特征)和输出(标签)数据类型实例
在医疗领域中,预测的准确性至关重要。计算机的数据挖掘能力是实现这些超人性能的关键。目前新的机器学习技术(例如在“深度学习”中使用的模型,深度学习指的是利用人工神经网络的一类机器学习算法,该算法可学习特征和标签之间极其复杂的关系,并且已被证明对影像分类等任务的执行能力超过人类)非常适合利用现代临床治疗中获得的复杂且异质的数据类型(例如医生输入的医疗记录、医学影像、来自传感器的连续监测数据以及基因组数据),并从中进行学习,从而协助医生做出相关预测。表2列出了何时使用简单的机器学习模型、何时使用复杂模型的决策过程。
表2. 决定需要哪类模型时要问的关键问题
机器学习如何增进临床医生的工作
每个患者都是独一无二的, 机器学习可否帮助医生识别他们不经常诊断的疾病?
美国医学科学院调查发现,每个患者一生中几乎都会遇到误诊,而正确诊断是治疗的基础。除罕见疾病外,心源性胸痛、结核、痢疾和分娩并发症在发展中国家都经常被漏诊。
机器学习可以在临床诊疗中提供可能的诊断,并提高对临床表现出现时间较晚的疾病的关注。但机器学习的辅助也存在局限性。一些基层的临床医生,可能根本无法将“特征”提供给机器学习模型;或是在建立模型时即出现错误;或是一些疾病本身就没有“特征”;还有治疗花费的影响等等。模型也可以根据实时收集的数据向医生建议应提的问题或应做的检查,这些建议在常见的后果严重的误诊中或临床医生不确定的情况下可能会有所帮助。
如表1所示,目前用于影像诊断的模型已经成功的建立,但是目前有限的前瞻性试验还不足以支持将机器学习应用于临床当中。
在有数万医生和数千万患者的大型医疗系统中,患者就诊的时间和原因,以及类似疾病患者的治疗方式等都存在差异。机器学习可否对这些差异进行分类,帮助医生确定何时治疗才是更好的做法?
在临床上,可以将医生诊疗时开出的治疗方案与模型预测的治疗方案进行比较,并标注出差异供医生考虑。但这样的做法也存在局限——根据历史数据训练出的模型只是学习了医生的处方习惯,而不一定是规范的临床实践。如果希望模型学习哪些药物或治疗对患者最为有益,则需要仔细进行数据策管(data curation;对数字信息的选择、保存、管理等综合处理)或估算因果关系,但有时机器学习模型根据给定的数据不能识别因果关系。
最近使用机器学习所做的尝试表明,要做到以下几点还存在一定的挑战:与专家一起生成策管数据集、更新模型以便纳入新发布的证据、对其进行调整以便适合各地区的处方习惯以及从EHR中自动提取相关变量以供使用。
机器学习可以学习大量患者的健康轨迹,获取信息的范围远超个体医生的临床实践经验,可以帮助医生站在专家的高度预测未来事件。
例如患者重返工作岗位的可能性有多大,或者疾病进展速度将有多快。这种预测能够可靠地识别即将出现高危状况或需要更多医疗服务的患者,通过机器学习模型的预测,我们可以提供额外资源来主动支持上述患者。
大型综合医疗系统已经在使用简单的机器学习模型自动识别有可能被转入重症监护病房的住院患者。此外一项回顾性研究提示,可以利用EHR和医学影像的原始数据建立更复杂和准确的预后模型。
也许有人会担心建立模型时语言标准化方面的问题,但其实目前的技术已经可以为比EHR数据更混乱的互联网数据建立索引。
机器学习还可根据临床病例自动选择可能符合随机对照试验纳入标准的患者,或识别可能在研究中受益于早期疗法或新疗法的高危患者或患者亚群。通过机器学习技术,医疗系统能够以更低的成本和管理费用进行更严格的研究。
主要挑战
数据质量差怎么办?
在建立机器学习模型的过程中,最大的挑战是收集到具有代表性的多样化数据集。对于计划在床旁使用的模型来说,最好应用EHR中相应时刻的相同数据,即使有些数据不可靠,只要数据集足够大就可以成功建立模型,从而将有噪输入映射到有噪输出。通过人工病历审核收集数据的较小规模的数据策管是不可取的。
数据领域有一句行话是“垃圾进,垃圾出”,那么使用有噪数据建立的模型,会不会也产出一堆“垃圾”建议?只要有大量的数据,即使是有噪数据,我们依然可以建立需要的模型。
但如果希望微调或评估模型,则必须有带策管标签的较小规模病例集。这样可以在原始标签有误的情况下,对照预期标签正确评估模型的预测结果。影像学模型通常需要多名评定人裁定每张影像,然后生成“真实值”(即专家为某一指定的实例进行无误的诊断)标签。
机器学习模型一般在有大量训练数据的情况下表现最佳。因此在机器学习的许多用途中,一个关键问题是平衡以下两方面,一方面是隐私和法规,另一方面是利用大量的多样化数据集来提高机器学习的准确性。
法规、监管和信息安全
医疗系统已经开发出确保向患者安全提供药物的复杂机制。机器学习的广泛应用也需要类似的监管结构、法律框架和规范性,从而确保系统的安全开发、应用和监测。此外,技术公司必须提供可扩展的计算平台,用于处理大量数据和模型。
更重要的是,使用机器学习的临床医生和患者需要理解它的局限性。在决策或分析影像时过度依赖机器学习可能会导致偏差,医生对错误的警觉性也可能降低。在模型预测结果中给出置信区间可能有一定帮助,但置信区间本身也有可能被错误解读。因此,需要对正在使用的模型进行前瞻性真实世界临床评估,而不仅仅是基于历史数据集进行回顾性的性能评估。
如果机器学习全面应用于医疗,文章开头的患者会得到什么样的诊疗体验?
当他发现自己的皮疹后,用手机APP拍一张照片,APP建议其立即与皮肤科医生预约就诊,保险公司自动批准直接转诊,APP核对其个人日历,并与附近一位有经验的皮肤科医生进行预约。皮肤科医师对皮损进行活检,病理科医生对Ⅰ期黑色素瘤这一计算机辅助诊断结果进行审核,然后由皮肤科医生将其切除。
在文章最后,NEJM的这篇综述以上述的假想诊疗结尾。
AI时代已经到来,像所有其他新事物来面见人类一样,我们对它充满好奇、审视、质疑甚至是恐惧,但我们更应该充满期待。随着数据库的健全和完善以及技术的不断革新,计算机数据挖掘的能力会将人类远远甩在身后,但无论如何,AI不是人类,更代替不了医生。AI的能力越强,我们得到的辅助也就越强。
我们有理由相信,这一假想的实现将不再需要50年的等待。