通过机器学习预测急性心肌梗死的概率
【内容摘要】(1)目的 现有心肌梗死诊断方法尚未考虑疑似患者的样本中心脏肌钙蛋白浓度随年龄、性别和时间发生的变化。本研究的目的在于通过机器学习将这些变量整合到一起,以改善个体患者的风险评估。(2)方法 在3013例疑似心肌梗死患者中训练一个包含年龄、性别和配对高敏心脏肌钙蛋白I浓度的机器学习算法(心肌缺血损伤指数[MI3]),并在7998例患者中进行测试。MI3利用梯度推进计算出一个值(0-100),这个值反映了个体被诊断为1型心肌梗死的概率,并为该个体估计灵敏度、阴性预测值、特异性和阳性预测值。评估通过校准和受试者工作特征曲线下面积来执行。二次分析评估训练集中将患者分为低风险(99%灵敏度)和高风险(75%阳性预测值)的示例MI3阈值,并在测试集中比较这些阈值与第99百分位数及欧洲心脏病学会排除算法的性能。(3)结果 训练队列中404例患者(13.4%)和测试队列中849例患者(10.6%)发生了心肌梗死。充分校准MI3后,在测试队列获得了非常高的受试者工作特征曲线下面积,为0.963[0.956-0.971],且在早期和晚期就诊患者中的性能相似。训练队列将患者分为低风险和高风险的示例MI3阈值分别为1.6和49.7。在测试队列中,69.5%患者MI3值<1.6,阴性预测值为99.7%(99.5-99.8%),灵敏度为97.8%(96.7-98.7%);10.6%患者的MI3值≥49.7,阳性预测值为71.8%(68.9-75.0%),特异性为96.7%(96.3-97.1%)。这些MI3阈值的性能优于欧洲心脏病学会0/3-h算法(灵敏度,82.5%[74.5-88.8%];特异性,92.2%[90.7-93.5%])及任何时间点的第99百分位数(灵敏度,89.6%[87.4-91.6%]);特异性,89.3%[88.6-90.0%])。(4)结论 利用机器学习的算法—MI3提供了有关心肌梗死概率的个体化和客观评估,可用于鉴别可能受益于早期临床决策的低风险和高风险患者。
临床前景
1. 新算法是什么?
(1)通过包含9个国家共11011例患者的国际合作,利用机器学习训练并测试了一种估计个体患者发生心肌梗死概率的新算法。
(2)该心肌缺血损伤指数(MI3)算法以一个值作为最终计算结果,计算过程中考虑到年龄、性别、配对高敏心脏肌钙蛋白I浓度以及肌钙蛋白浓度变化率,用以估计每位患者与此相关的阴性预测值和阳性预测值。
(3)首次展示如何用机器学习来指导对疑似急性冠脉综合征患者的临床决策。
2. 临床意义是什么?
(1)MI3算法比现有算法用途更广泛,因为前者不依赖于固定的心脏肌钙蛋白阈值,不需要在规定时间点连续测试,还认识到不同的医疗体系具有不同的优先级和风险承受能力。
(2)目前需要前瞻性研究来评价在临床实践中应用MI3算法后的患者结局和资源利用情况。
心脏肌钙蛋白检测在临床实践中的应用发展迅速。检测分析精密度的提高使得目前能够对正常参考范围内的心脏肌钙蛋白浓度进行定量,新的应用范围包括在评估可能的急性冠脉综合征时对患者进行早期诊断和风险分层。过去,国际指南推荐使用6-12小时的连续心脏肌钙蛋白测量,通过心脏肌钙蛋白浓度升高或下降来判断患者是否发生了心肌梗死,其中连续测定浓度中至少有一个值应高于第99百分位数。然而,某些研究对这种方法提出了质疑,认为使用高敏心脏肌钙蛋白检测时,较低的阈值可将患者的心肌梗死风险分为低、中、高。
这些策略被融入到快速诊断算法中,即提倡在就诊时和就诊后1-3小时测量早期肌钙蛋白值,以利于及时诊断和治疗心肌梗死患者,或使无心肌梗死患者尽快出院。
这些算法的性能因人群而异,反映出了心脏肌钙蛋白浓度随年龄和性别变化。对所有患者采取固定阈值的策略并未体现这种异质性,只是将患者分为低中高风险而没有反映更细微的风险变化。机器学习被认为是一种客观、可重现的方法,整合了多种定量变量,能够提高诊断准确度。
本研究的目的在于测试一种经过机器学习训练的心肌缺血损伤指数(MI3)算法,用于估计个体患者发生心肌梗死的概率。
一、方 法
1. 增加透明度和开放性:如需要,可提供本研究的分析代码。该算法是专有的并申请了专利,但我们愿意以签订数据共享协议的形式,与承诺仅用于研究目的的研究者分享。
2. 研究设计:本研究分析了从多个中心收集而来的前瞻性数据,以训练和测试MI3算法预测1型心肌梗死诊断的能力。训练集包含2个队列的数据,而测试集包含7个队列的数据,患者均为到急诊科就诊的疑似心肌梗死患者。
训练和测试为机器学习术语,类似于新诊断生物标志物研究中的推导和验证。
MI3算法包含年龄、性别、就诊时和另一个较早但非固定时间点的配对高敏心脏肌钙蛋白I浓度、以及心脏肌钙蛋白I浓度变化率。这些变量(特征)是先验选择的,因为它们(1)是客观的、从医院电子病历中自动获取的,(2)包括指南建议的连续测量,(3)与心肌梗死诊断相关。MI3计算出一个0-100的数值(MI3值),反映了每位患者住院期间被诊断为1型心肌梗死的概率(数值越大,概率越高)。该算法利用嵌入式参考表,为每位患者估计给定MI3值的诊断灵敏度、阴性预测值(NPV)、特异性和阳性预测值(PPV)。MI3是由Abbott Diagnostics利用一种称为梯度推进(gradient boosting)的机器学习技术,基于训练数据集而建立的。该技术使用提供的特征反复训练一组连续的弱学习器(weak learner)(这里指决策树),以映射结局(不管患者是否被诊断为心肌梗死)。关于梯度推进法的更多信息,参见仅在线提供的数据补充。这类似于逻辑回归模型的β系数权重,但较之更复杂。将该算法提供给独立的统计员,J.P.,由其评价在测试集中的性能。J.P.有权使用所有测试集数据,并对其完整性和分析负责。
我们按照个体预后或诊断的多变量预测模型的透明报告(TRIPOD)规范进行报告。本研究已在澳大利亚新西兰临床试验登记处登记(URL: http://www.anzctr.org.au,唯一识别符:ACTRN12616001441404)。
3. 参与者和队列:研究参与者是由于出现心肌梗死症状而就诊、并接受了连续心脏肌钙蛋白测量的患者。排除了就诊时为ST段抬高心肌梗死(STEMI)的患者。队列的入选标准:前瞻性,就诊时以及大约1-3小时后的第二个时间点使用 Abbott ARCHITECT STAT高敏检测(Abbott Diagnostics,Chicago,IL)测量心脏肌钙蛋白I浓度(详情参见仅在线提供的数据补充),最终诊断按照心肌梗死通用定义判定,且伦理批准允许分享个体患者水平数据(参见仅在线提供的数据补充中的表I)。所有队列研究均按照赫尔辛基宣言执行,并通过当地研究伦理委员会或机构审查委员会批准。按要求获得了书面知情同意书。所有判定均在建立MI3算法之前完成。
4. 结局定义和判定:主要结局是根据指数入院期间被判定为1型心肌梗死诊断。虽然对所有患者进行了高敏心脏肌钙蛋白I测量,但某些队列在判定过程中使用了其他心脏肌钙蛋白检测(参见仅在线提供的数据补充中的表I)。
5. 算法建立:利用预定特征(年龄、性别、就诊时和另一个较早但非固定时间点的配对心脏肌钙蛋白I浓度、以及心脏肌钙蛋白I浓度变化率)建立梯度推进模型,估计被诊断为1型心肌梗死的概率。模型经过训练后,被用于计算测试集中每位患者的MI3值。
二、统计学分析
1. 初始分析:我们通过以下方式描述算法在测试集中的性能:(1)目视检查校准曲线,观察MI3值估计心肌梗死概率的准确性;(2)通过受试者工作特征曲线下面积(AUC),量化MI3值鉴别心肌梗死与非心肌梗死患者的能力。另外,我们比较了每位患者使用该算法获得的诊断度量输出(灵敏度、NPV、特异性和PPV),这些度量值是利用每位患者的MI3值作为阈值在测试集中测定的。
2. 二次分析:MI3被设计为一种连续的衡量方式。但是,我们认识到在该领域,大多数工具均依赖于阈值来指导临床决定。因此,以一家医院如何选择使用MI3为例,我们证明了2个示例MI3阈值的诊断性能。首先,我们测定了训练集中灵敏度≥99.0%或NPV≥99.5%的MI3值及其95%CI,并在测试集中评估了这些示例阈值的准确度。这些诊断标准是预先设定的,并基于国际上对急诊科医生的可接受风险调查,和先前关于定义高敏心脏肌钙蛋白风险分层阈值的前瞻性研究。其次,基于项目指导委员会共识,我们测定了训练集中特异性≥90%且PPV≥75%的MI3值,并评估了其在测试集中的性能。我们利用1000例bootstrap抽样样本来测定这些MI3阈值及其95%CI。在R(版本 3.2.4: The R Foundation for Statistical Computing)中执行所有分析。
3. 其他分析:按照年龄、性别、并存病(冠状动脉疾病、糖尿病、高血压、现时吸烟者)、从症状出现到第一次采样的时间、测试间隔时间、以及心电图(ECG)是否存在心肌缺血,执行预定亚组分析。也评估了该算法预测出院后30天内发生1型心肌梗死,和根据指数入院期间发生1型或2型心肌梗死的性能。最后,我们比较了从训练集获得的示例MI3阈值与任何时间点第99百分位数,以及欧洲心脏病学会(ESC)0/1-h和0/3-h算法用于诊断测试集中1型心肌梗死的性能。
三、结 果
训练集包含3013例患者,其中404例(13.4%)被诊断为1型心肌梗死。训练集中主要为男性(63%),平均年龄为62.4岁(表1)。测试集包含7998例患者,62%为男性,平均年龄为58.8岁,平均采样间隔为2.5小时(SD,1.2小时)。在这些患者中,849例(10.6%)被诊断为1型心肌梗死。没有遗漏训练集和测试集中所用的任何变量数据。与训练集相比,测试集中的患者更年轻,不太可能具有已知的冠状动脉疾病,但更有可能吸烟、患糖尿病、血脂异常或有冠状动脉疾病家庭史。
用测试数据集中的观测1型心肌梗死患者比例校准MI3算法(A)。每个点代表100例患者。虚线代表完美校准。受试者工作特征曲线显示了MI3算法在测试数据集中的鉴别能力(B)。某些MI3值仅用于说明目的。
1. 初始分析结果(校准和鉴别):对MI3算法进行了充分校准,可以鉴别有、无1型心肌梗死患者(AUC, 0.963[95% CI,0.957-0.968],图1)。比较MI3输出的估计度量值发现,在训练集和测试集中的灵敏度相似,在测试集中的特异性和NPV稍高,而PPV稍低(参见仅在线提供的数据补充中的图I)。
3小时内就诊(0.966-[0.959-0.973])与更晚就诊(0.965[0.959-0.972])的患者之间不存在AUC差异,且按照性别分层时也不存在差异(男性0.962 -[0.955-0.969]和女性0.962[0.952-0.973];参见仅在线提供的数据补充中的图II)。先前无冠状动脉疾病、糖尿病或高血压病史的患者与有这些共存病的患者相比,AUC更高。年轻患者的AUC高于年长患者,ECG显示无心肌缺血的患者的AUC高于有心肌缺血的患者。
2. 二次分析结果(示例诊断阈值):从训练集获得的对应于预定诊断性能的MI3阈值是1.6(0.9-3.0;灵敏度≥99.0%)、3.1(1.7-4.7;NPV≥99.5%)、17.2(13.8-21;特异性≥90.0%)和49.7(36.6-60.0;PPV≥75%,表2)。在测试集中,MI3值1.6和3.1的灵敏度和NPV分别为97.8% (96.7%-98.7%)和99.4%(99.2%-99.6%)。MI3值17.2和49.7的特异性和PPV分别为91.7%(91.1%-92.3%)和71.8%(68.9%-75.0%)(见表2)。
例如,如果MI3值<1.6的患者被归为低心肌梗死风险,那么该阈值会将69.4%(68.4%-70.4%)的患者鉴别为低风险,其中0.5%(0.3%-0.7%)为假阴性。如果MI3值≥49.7的患者被归为高风险,那么该阈值会将10.6%(10.0%-11.2%)的患者鉴别为高风险,其中28.1%(25.1%-31%)为假阳性(参见仅在线提供的数据补充中的表II)。这2个示例阈值被用于所有后续分析。MI3阈值1.6在所有亚组中的性能相似,包括在症状出现3小时内就诊的患者(灵敏度98.7%[97.3%-100%]和NPV 99.8%[99.7%-100%];参见仅在线提供的数据补充中的图III)。MI3阈值49.7在所有亚组中的性能也相似,除了性别和症状出现的时间亚组,其中女性的PPV低于男性,在症状出现3小时内就诊的患者的PPV低于在症状出现3小时以上就诊的患者(参见仅在线提供的数据补充中的图IV)。
3. 二次分析结果(出院后30天内发生1型心肌梗死):除了初次住院期间发生1型心肌梗死的849例患者(10.6%),有23例患者(2.9%)在出院后30天内发生心肌梗死。MI3值用于鉴别出院后30天内发生和不发生1型心肌梗死患者的AUC为0.957(0.951-0.963)。阈值1.6和49.7的灵敏度和PPV分别为96.6%(95.3%-97.8%)和71.9%(69.0%-74.9%)(参见仅在线提供的数据补充中的表II)。
4. 二次分析结果(就诊时为1型或2型心肌梗死):除了849例1型心肌梗死患者(10.6%),初次住院期间有216例2型心肌梗死患者(2.7%)。MI3值用于鉴别有、无1型或2型心肌梗死患者的AUC为0.963(0.957-0.968,参见仅在线提供的数据补充中的图V)。低风险示例MI3阈值1.6的灵敏度为97.4%(96.3%-99.5%),NPV为99.5%(99.3%-99.7%),将69.5%患者鉴别为低风险。高风险示例阈值49.7的特异性为97.7% (97.3%-98.0%),PPV为80.8%(78.1%-83.5%),将10.6%患者鉴别为高风险(参见仅在线提供的数据补充中的表III)。
5. 二次分析结果(推荐诊断策略的比较):在测试集的所有7998例患者中,使用任何时间点的第99百分位参考上限鉴别出了6473例(80.9%)低风险患者(NPV,98.6%[98.3%-98.9%];灵敏度,89.6%[87.4%-91.6%]),和1525例(19.1%)高风险患者(PPV, 49.9%[47.4%-52.4%];特异性,89.3%[88.6%-90.0%])。测试集中共有1652例患者(21%)符合ESC 0/3h算法(连续样本之间的间隔≥2.5h)的分析入选条件(见图2)。该算法鉴别出了86.7%(1433/1652)低风险患者(NPV,98.5%[97.8%-99.1%];灵敏度,82.5%[74.5%-88.8%]),错过了21个事件;和13.3%(219/1652)高风险患者(PPV,45.2%[38.5%-52.1%];特异性,92.2%[90.7%-93.5%])。在同一患者组中,使用MI3值<1.6或≥49.7分别鉴别出了70.7%(1168/1652)低风险患者(NPV,99.9%[99.5%-100%];灵敏度,99.2%[95.4%-100%]),错过了1个事件;和9.0%(149/1652)高风险患者(特异性,95.9% [94.8%-96.8%];PPV,57.7%[49.4%-65.8%])。使用这些阈值鉴别出20.3%(335/1652)中风险患者(MI3,1.6-49.6),其中33例发生了心脏事件。
测试集中只有336例患者(4%)符合ESC 1h算法(连续样本之间的间隔>0.5h但≤1.5h)的分析入选条件(图3)。该算法鉴别出了54.3%(183/336)低风险患者(NPV,100%[98.0%-100%];灵敏度,100%[93.2%-100%]),没有错过任何事件;18.3%(61/336)高风险患者(PPV,75.4%[62.7%-85.5%];特异性,94.7%[91.4%-97.0%]);和27.4%(92/336)中风险患者,其中6例发生了心脏事件。使用MI3值<1.6或≥49.7分别鉴别出了64.3%(216/336)低风险患者(NPV,100%[98.3%-100%];灵敏度,100%[93.2%-100%]),没有错过任何事件;和14.9%(50/336)高风险患者(特异性,97.2%[94.5%-98.8%];PPV,84.0%[70.9%-92.8%])。使用这些阈值鉴别出20.8%(70/336)中风险患者(MI3,1.6-49.6),其中10例发生了心脏事件。
四、讨 论
1. 在包含11000多例疑似心肌梗死患者的大型、国际、多中心研究中,我们利用机器学习训练和测试了一个新的决策工具,该工具纳入了与心肌梗死诊断相关的已知简单、客观变量,以准确预测心肌梗死诊断的概率。该算法经过充分校准,总体诊断性能在训练和测试数据集中是相同的。本研究具有一些独特而重要的特征。
首先,该技术通过年龄、性别和配对高敏心脏肌钙蛋白I浓度,提供个体化和精确评估,并能够对这些变量进行复杂和非线性交互。相比之下,临床应用的现代算法基于固定的采样时间点、固定的肌钙蛋白阈值,也不支持输入变量之间的交互。仅肌钙蛋白-曼彻斯特急性冠脉综合征规则是个例外,它采用逻辑回归模型来估计心肌梗死风险,包含年龄、性别、多种临床变量和单次高敏肌钙蛋白T测量。他们报告的AUC为0.90。该模型有一些优势,但未考虑到变量之间的动态交互,并且迄今为止只用将患者归为4个风险类别之一的阈值进行了评估。
其次,MI3认识到心脏肌钙蛋白浓度的变化大小和变化率对心肌梗死诊断的重要性,没有采用固定的绝对浓度变化或变化百分比,或强制在规定时间点进行连续测试。在一系列采样间隔范围内MI3具有良好性能。这增强了它的可转移性,因为采样时间不同在忙碌的急诊科是常见的。值得注意的是,按照从症状出现到采样的时间分层时,性能没有差异,这意味着不像其他一些方法,可应用于早期就诊患者(也就是,在症状出现3小时内就诊的患者)。这很重要,因为早期就诊患者构成了相当大的患者子集(在测试队列中有34%此类患者),而且症状出现的时间通常是不确定的。
第三,队列样本量及1型心肌梗死患者的数量较大,使得能够进行稳健的亚组分析。
第四,在鉴别低风险和高风险患者方面,示例阈值优于仅使用第99百分位数或ESC 0/3h算法。与先前的报告一致,这两种方法虽然广泛用于临床实践,但其诊断灵敏度低且阳性预测值较差。MI3与ESC 0/1h算法的性能相当,MI3的主要优势在于连续测试时间灵活,简单地使用概率而不是多个阈值对个体患者进行风险分层。
第五,即使将2型心肌梗死作为结局事件,该算法也具有良好性能。
最后,MI3提供关于高风险患者的指导,报告1型心肌梗死的PPV和特异性,便于启动早期治疗或加快心脏病学会诊。先前对于优化心肌梗死特异性的尝试,均使用肌钙蛋白浓度的绝对或相对变化以与慢性心肌损伤相区分,或推荐远高于第99百分位数的阈值。
MI3无需决定使用相对或绝对变化,还是先验变化阈值。建立的机器学习模型利用浓度变化率、患者年龄和性别来决定相对和绝对肌钙蛋白浓度变化的加权。
在梯度推进算法中提交这些特征,输出的MI3值可为评估所有疑似心肌梗死患者提供一个临床决策支持工具。该工具还报告与计算MI3值相关的诊断参数。个体患者无法得出这些诊断参数,因此该工具利用一个嵌入参考表,同时报告训练集所得的灵敏度、特异性、阴性和阳性预测值的估计量与计算MI3值。该工具便于在实践中应用,评价客观,因为它不取决于可能不一致的症状或患者病史评估,且为每位患者提供准确的心肌梗死概率估计,有助于临床决策。
我们知道该领域有2次使用机器学习的尝试,均使用人工神经网络。2005年,Green等人基于人口统计特征、病史、症状持续时间和舒张压,建立了一个预测急性冠脉综合征的模型。该模型的AUC为0.778。2007年,在310例患者中评价了一个基于肌红蛋白和同期肌钙蛋白I浓度连续测量(仅浓度或与其变化率结合)的模型。该算法的输出通过二分法进行诊断,因此灵敏度为99%。做出这些开拓性的努力时,并没有高敏肌钙蛋白检测可用,也没有我们所依据的多个高质量队列可用。
大多数建立或评估疑似心肌梗死患者风险分层策略的研究,招募的患者数量有限且事件数较少,使精密度受到限制,从而使外部普通适用性也受到限制。相比之下,MI3经过训练和测试,所用的患者群体来自多个地区的9项研究,事件数超过1250,发病率也存在显著差异,表明该方法具有普遍性,可用于全世界的任何医疗保健机构。此外,MI3不是一个采用多个阈值的不灵活诊断策略,该算法是一个动态工具,未来可依据发病率和诊断优先级为个别医疗保健机构进行再训练,以提高医疗保健水平。
从临床角度来看,每位患者都会有一个考虑到自身年龄、性别和测定心脏肌钙蛋白浓度的MI3值。该方法与以前的算法有所不同。虽然早期诊断算法,比如ESC 0/1h算法,在鉴定患者组别时具有较高的阴性预测值和中等的阳性预测值,但并不为个体患者报告或推导这些度量值。这对于归为观察区的三分之一患者来说具有很大的局限性,ESC 0/1h算法无法为此类患者提供任何指导。MI3算法用途更广泛,因为它不需要在规定时间点连续测试,还认识到不同的医疗体系具有不同的优先级和风险承受能力。MI3算法在应用中可以进行相应地调整。例如,在某些更保守的机构,分流到门诊调查只有在NPV>99.8%时才可接受(假阴性率为千分之一;参见图4)。相似地,急诊科的心脏病学会诊可能会在心肌梗死的PPV>60%时启动,但是直接转移到心脏导管插入术实验室只有在PPV>80%时才会考虑。目前需要前瞻性研究来评价在临床实践中应用该算法后的患者结局和资源利用情况。
2. 局限性:并非所有场所都使用高敏心脏肌钙蛋白I检测判定心肌梗死诊断,有些场所会使用现代检测或高敏心脏肌钙蛋白T检测。这应该会降低算法的性能,但是我们发现队列之间几乎没有异质性。高风险示例阈值的选择,是基于PPV(依赖于发病率)预先设定的,可以解释队列之间的某些异质性。医疗机构可以根据当地的心肌梗死发病率或临床优先级选择自己的阈值。风险可接受性、住院床位或门诊服务的可获得性、或患者需要行冠状动脉造影等因素,会影响当地采用的阈值。与ESC 0/1-h和0/3-h算法相比,MI3的主要目的是评估个体患者的风险。由于,该算法与两种算法的比较存在一些局限性,因为精确的样本间隔要求会使我们测试队列中符合入选条件的比例分别降低到21%和4%。需要前瞻性研究来更好地理解基于个体概率而不是固定阈值的算法的优缺点。在机器学习中,通常会用较大的数据集来训练以及较小的数据集来测试,从实际出发建立稳健的算法模型。我们利用较小的数据集来训练,是因为另一个数据集是后来获得的而且这个数据集已经是一个大数据集了。机器学习还能利用很多特征,包括患者病史和临床症状的各个方面。未包括这些变量,是因为我们的初衷是开发一个仅利用客观且总是可获得的变量的工具,以确保我们的算法能够广泛用于临床实践。我们侧重于MI3算法的训练和测试,并未报告与其他线性回归或机器学习方法的比较。
3. 结论:MI3临床决策支持工具融入了简单的客观变量,包括年龄、性别和使用高敏检测测定的连续心脏肌钙蛋白I浓度,以快速估计心肌梗死风险。它可用于对疑似心肌梗死患者进行个体化风险评估,或将患者分为低风险或高风险人群。
摘自《Circulation》
编译:王小茜
审校:李卫东