【摘要】目的 及时诊断对于脓毒症治疗至关重要。目前的机器学习(ML)模型高度复杂且适用性有限。因此,我们创建了一个仅使用全血细胞计数(CBC)诊断的ML模型。方法 我们从德国一家三级医疗中心收集了非重症监护室(non-ICU)数据(2014年1月至2021年12月),利用患者年龄、性别和CBC参数(血红蛋白、血小板、平均红细胞体积、白细胞和红细胞),训练了一个增强型随机森林,可以预测脓毒症患者是否需要入住ICU。使用来自德国另一家三级医疗中心和重症监护医学信息市场IV(MIMIC-IV)数据库的数据进行了两次外部验证,利用同时包含降钙素原(PCT)的检验单子集,以PCT为附加特征训练了一个类似的模型。结果 排除后,纳入1,381,358例病例(2016例脓毒症)。CBC模型显示受试者工作特征曲线下面积(AUROC)为0.872(95%CI,0.857-0.887)。外部验证显示格赖夫斯瓦尔德医学院和MIMIC-IV的AUROC分别为0.805(95%CI,0.787-0.824)和0.845(95%CI,0.837-0.852)。包含PCT的模型AUROC(0.857;95%CI,0.836-0.877)明显高于单独使用PCT(0.790;95%CI,0.759-0.821;P<0.001)。结论 我们的研究结果表明,常规CBC联合ML可显著提高脓毒症的诊断水平,CBC模型在外部验证中具有较高的稳健性,它有助于非ICU患者的早期脓毒症预测。该模型在临床决策支持系统中的应用具有强大的潜力,可提供重要的时间优势并提高患者的安全性。
据估计,脓毒症是全球20%死亡的原因,早期发现和治疗脓毒症可显著改善预后。已经开发了几种筛查工具来及时识别脓毒症患者,基于评分的预警系统,如,全身炎症反应综合征(SIRS)、快速序贯器官衰竭评分(qSOFA)和国家早期预警评分(NEWS),在ICU之外缺乏特异性或敏感性,并且通常仅在临床怀疑的情况下进行。尽管已经确定了许多与脓毒症相关的生物标志物(截至2019年超过250种),但大多数生物标志物在临床实践中的作用评估不佳。目前,只有降钙素原(PCT)被纳入了国际临床脓毒症诊疗指南,但只推荐在停用抗生素治疗时使用该指标。针对于ICU数据,基于机器学习(ML)的筛查工具在检测和预测脓毒症方面优于上述传统筛查方法。应用于非ICU患者的ML模型发现,在警报发出后3小时(h)内由医务人员确认的患者中,死亡率相对降低了18.7%。然而,所有这些模型都需要各种输入特征,而电子健康记录(EHRs)中往往没有这些特征,特别是在脓毒症发病率和死亡率较高的中低等收入国家。
合适的预测工具应尽早预测脓毒症,最好是在入住ICU之前,并且只需要容易获取的临床数据。然而,尚未发表仅基于非ICU数据而不依赖生命体征进行训练的相应ML模型。考虑到高度适用性,我们在此介绍了如何应用ML建立一个仅基于全血细胞计数(CBC)的精确预测模型,该模型可对有脓毒症和入住ICU风险的患者进行早期、可靠的预测。外部验证是评估模型性能的关键,在研究中,我们在内部保留数据集(hold-out data set)、另一个三级医疗中心的大型独立队列和重症监护医学信息市场IV(MIMIC-IV)上验证了该模型。该数据集最近已经公布,是唯一包含非ICU数据的公开数据集,为了便于将来开发相关模型,我们公开了数据,其中包括超过850,000例非ICU的入院病例。
一、研究对象和方法
在这项回顾性队列研究中,我们纳入了2014年1月至2021年12月在莱比锡大学医学中心(UML)年龄≥18岁的所有住院和门诊患者,并获得了他们的年龄、性别、国际疾病分类(ICD)-10编码诊断以及(如适用)入住ICU的时间,还收集了所有非ICU病房和门诊的CBCs结果。普通病房的血液样本由主治医生按常规(一般为每周2-3次)或根据紧急医嘱采集。
1. 数据处理和模型开发:数据预处理均使用R4.2.0和数据执行,表R1.14.2,摘要表使用gtsummaryR1.6.0构建,ML使用MATLAB 9.7.0.1247435(R2019b)执行。首先,根据脓毒症相关ICD-10编码将研究数据分为对照组和脓毒症组。在脓毒症组中,只有入住ICU和住院患者的CBCs被标记。在多次入住ICU的脓毒症病例中,我们假设第一次入住ICU与脓毒症相关,并排除所有后续CBCs。为了避免因术后脓毒症和SIRS的发展而导致的系统性偏差,只纳入了入住内科ICU的病例,并排除了所有明确编码为SIRS的病例。由于不完整CBCs在日常实践中很少见,因此选择完整病例分析,然后将生成的数据集拆分为莱比锡大学医学中心训练数据集(UMLT 2014-2019)和保留验证集(UMLV 2020-2021),所有纳入标准均列于图1。
图1. UMLT的纳入标准和主要数据集的大小
使用对照或脓毒症标签作为响应变量,年龄、性别、血红蛋白(HGB)、平均红细胞体积(MCV)、血小板(PLT)、红细胞(RBC)和白细胞计数(WBC)作为特征变量来训练随机森林模型。参数的选择是基于检验医学的基本原理,因为这些参数代表了CBC的主要特征。我们采用随机欠采样的方法,通过随机选择与脓毒症病例数相等的对照病例样本,来平衡对照组和脓毒症病例,用于每棵树(决策树)的培训。为每例脓毒症CBC挑选一对照组CBC,同时对对照组入住ICU前6h以上的脓毒症前CBCs进行了10倍的过采样。对于超参数优化,进行了5倍交叉验证。所有CBCs的评估独立于以前或后续的检测,采用受试者工作特征曲线下面积(AUROC)评估CBC模型在所有数据集上的预测性能。为了评估预测性能与入住ICU前时间的函数关系,计算了不同时间间隔的单独AUROC。在每个时间间隔内,脓毒症病例的CBCs被标记并用作响应变量,排除随后CBCs,90%和50%临床相关的灵敏度临界值用于计算和说明特异性。
2. 外部验证:为了验证CBC模型,在保留验证集(UMLV)和两个外部数据集上进行了测试。首先,我们获得了2015年1月-2020年12月在格赖夫斯瓦尔德大学医学院(UMG)住院的所有患者(≥18岁)的等效数据集。UML数据应用了与上面描述的相同的排除和数据预处理步骤。其次,利用了最近发表和公开的MIMIC-IV数据集,在采用上述相同的排除和数据预处理步骤之前,根据ICD-9和-10编码对脓毒症患者进行了标记,因为在MIMIC-IV数据集中只有部分病例使用ICD-10编码。
3. PCT的比较:为了评估经过训练的预测模型与生物标志物PCT相比的性能,从UML数据集中选择所有同时检测PCT的检验单。在UMLT子集上,训练了一个新的CBC+PCT模型,该模型类似于将PCT作为附加生物标志物的CBC模型。为了避免由于数据集明显较小而导致模型过拟合,将每棵树的分割次数限制为10,采用DeLong检验进行统计学分析,α水平为0.05(双侧)被认为有统计学意义,所有置信区间(CI)指的是95%置信区间。
4. 临床验证队列:临床适用性通过纳入急诊科所有患者进行回顾性评估,未进行再训练,在模型训练中,仅标记了入住ICU前0-6h的CBCs,而在临床验证中,纳入了所有入住ICU前0-48h的CBCs。
二、研究结果
1. 训练和内部验证:在UML,2014年1月至2021年12月,对724,059例病例共进行1,934,343次CBC检测,最终UMLT数据集提供对照组1,013,548个CBCs(527,038例),脓毒症组1,526个CBCs(1,488例),符合纳入标准用于训练ML模型,更详细的信息见图1。脓毒症样本包括938例男性(63%)和550例女性(37%),中位年龄为67岁(四分位距[IQR]为57-76岁)。脓毒症组和对照组的所有特征均有显著差异,在686个(0.05%)CBCs中,至少有一个参数缺失。在UMLV保留数据集中,得出的CBC模型的AUROC为0.872(95%CI,0.857-0.887;见图2)。将模型的灵敏度调整为90%(S90),特异性为65.1%(95%CI,64.9-65.2);灵敏度为50%(S50),特异性达到95.2%(95%CI,95.1-95.3)。S90和S50的阳性似然比分别为2.57(95%CI,2.49-2.65)和10.34(95%CI,9.45-11.31),阴性似然比分别为0.16(95%CI,0.12-0.20)和0.53(95%CI,0.48-0.58)。考虑到最终数据集中脓毒症标记患病率为0.13%,S50的阳性预测值(PPV)为1.37%(95%CI,1.2-1.55),阴性预测值(NPV)为99.93%(95%CI,99.92-99.94),S90的PPV为0.34%(95%CI,0.31-0.38),NPV为99.98%(95%CI,99.97-99.98)。
在(B)中,两个预测因素之间的差异有统计学意义(P<0.001,DeLong检验),AUROCs随入住ICU时间延长而下降,入住ICU前6-12h、12-24h、24-48h、2-7d的CBCs的AUROC分别为0.848(95%CI,0.824~0.875)、0.820(95%CI,0.794~0.852)、0.799(95%CI,0.778~0.824)、0.774(95%CI,0.762~0.789),入ICU前28d或更长时间的CBCs基线AUROC为0.721(95%CI,0.704-0.742)(见图3)。除了时间动力学之外,对于入住ICU的诊断为脓毒症和未诊断为脓毒症的患者,计算出的分值存在显著差异(见图4)。除性别外,所有参数在最终的ML模型中均显示出相关的重要性,WBC对预测的影响最大。
图2. CBC模型对内部和外部验证数据的受试者工作特征(ROC)曲线(A)以及CBC+PCT模型与PCT模型的比较(B)
图3. CBC模型的时间动力学,95%置信区间用虚线表示
图4. 入住ICU的患者的CBC模型评分中位数
2. 外部验证:使用来自2个大型外部数据集(UMG和MIMIC-IV)的数据对CBC模型进行测试。UMG数据集包括2015年1月至2020年12月期间进行的169,058例病例的645,874次CBCs检测。类似地应用UML排除标准,最终验证数据集包括对照组的437,629个CBCs(157,680例)和脓毒症队列的448个CBCs(438例)。ML算法的AUROC为0.805(95%CI,0.787-0.824)。MIMIC-IV提供了2008年至2019年在波士顿贝斯以色列女执事医疗中心接受治疗的40,000多名患者的数据。总共包含来自586,743病例的3,322,100个CBCs。排除过程之后,有2,511,592个CBCs(559,135例病例)可供验证,其中包括2,638个带有阳性脓毒症标记(2,513例病例)。仅使用UMLT数据训练的CBC模型的AUROC仍较高,为0.845(95%CI,0.837-0.852)。在没有排除标准的情况下,住院患者数据显示脓毒症患病率在UMLT、UMLV、UMG和MIMIC-IV之中分别为2.1%、1.7%、3.9%和2.6%。3个数据集中脓毒症队列的临床和社会人口学特征见表1。
表1. UMLT、UMLV、UMG和MIMIC-IV脓毒症患者的基线特征
注:a n(%)或中位数(四分位距);b Kruskal-Wallis秩和检验,Pearsonχ2检验;c 要将HGB从g/dL转换为mmol/L,需乘以0.621
3. 它与PCT比较:为了评估CBC模型与脓毒症生物标志物PCT相比的性能,从UMLT数据集中提取17,898例病例(24,125次同时检测CBC和PCT)的数据,其中包括425例脓毒症病例(425次检测)。CBC+PCT模型在UMLV子集上的AUROC为0.857(95%CI,0.836-0.877),而生物标志物PCT单独预测效能的AUROC为0.790 (95%CI,0.759-0.821,两者之间的差异有统计学意义(P<0.001)。
4. 临床适用性:队列分析显示急诊科的患病率为0.81%,PPV为5.2%(95%CI,4.46-6.03;S50)(内部验证)。将CBC模型应用于临床验证队列时,当灵敏度设为50%(S50)时,AUROC下降至0.813(95%CI,0.800-0.825),特异性为89.1%(95%CI,88.8-89.4)。然而,随着患病率为2.16%,PPV上升至9.2%(95%CI,8.40-10.04;S50),而NPV为98.77%(95%CI,98.66-98.88;S50)。图5显示了不同队列的PPV以及灵敏度和患病率的影响。尽管AUROC较低,但患病率越高,PPV也越高。
注:该图显示了基于UMLV数据的3个队列的灵敏度与阳性预测值的相关性
图5. 不同队列的阳性预测值与灵敏度的关系
三、分析与讨论
在这项研究中,我们描述了第一种基于ML的诊断方法,该方法完全基于简单的血细胞计数诊断来预测脓毒症和重症监护需求。在临床决策支持系统(CDSSs)的开发中使用广泛可用的CBC数据有可能通过早期诊断来改善临床结局。目前,我们独特的诊断方法只能在有限程度上与现有文献进行比较。其他研究应用了不同的诊断参数、患者人群、脓毒症定义、ML技术和终点。迄今尚未发表使用公开的MIMIC-IV数据集的可比方法或基于评分的早期预警系统的结果。很少有复杂的基于ML的方法报告了>0.90的AUROC,但都需要大量的输入特性,其中一些必须每小时记录一次。这些特征中有一些在非ICU EHR中很少获得的变量,如生命体征、血培养、当前用药和合并症。此外,在ICU之外,通常不要求进行广泛而昂贵的实验室检测。然而,脓毒症警报系统的临床意义关键在于对尚未接受重症监护且尚未被怀疑感染的患者进行预测。Henry等人成功开发并在临床上验证了一种名为“目标实时预警系统(TREWS)"的复杂ML模型。在3h内确认警报的患者中,发现死亡率相对降低了18.7%。1/4的警报是正确的(PPV 25.6%,灵敏度80%)。重要的是,该模型对复杂临床数据的可用性要求很高,这限制了它目前在大多数医院的应用。相比之下,CBC模型提供了一些有价值的优势。在急诊科,CBC模型的结果可以立即与血细胞计数同时提供,最好是在医生第一次接触时就提供。最重要的是,CBC模型更容易实施,成本更低,可以在临床上得到更广泛的应用。与此同时,与TREWS模型(PPV 9.2%,灵敏度50%)相比,CBC模型的特征集较小,限制了其预测准确性,增加了报警疲劳的风险。假警报的比例取决于设定的特异性和病房的总体脓毒症患病率,因此有必要在当地与临床医生合作进行这一评估。应用TREWS模型后,死亡率明显降低,CBC模型似乎也有积极的效果。
迄今为止,仅有一项包含非重症监护病房患者并完全基于实验室诊断的研究成功预测了脓毒症。Choi等人发现,5项实验室指标(白蛋白、平均血小板体积、总蛋白、血尿素氮和碱性磷酸酶)是区分脓毒症患者和非脓毒症发热患者的最佳组合,在未经外部验证的情况下,AUROC达到了0.83。然而,该研究未区分ICU和非ICU患者,而且欧洲的标准医疗中很少同时要求进行这一广泛的实验室诊断。因此,为了获得最佳适用性,我们局限于不区分白细胞的常用CBC,能够从未经筛选的非ICU患者队列中精确区分脓毒症患者(AUROC 0.872)。此外,我们不知道还有其他任何基于ICU或非ICU数据的ML模型可以通过常规实验室诊断预测脓毒症,并且已经过外部验证。
预警系统的另一个重要方面是脓毒症发病前的预测时间,如果一个模型对发生脓毒症的“基线风险”进行了强加权,就可以实现早期预警。为了达到最佳的临床效果,该模型必须在接近脓毒症发作时进行预警。因此,我们优化了时间动力学模型,并能够在入住ICU前6-48h期间获得显著的鉴别能力,之前只有少数研究探讨了这一时间动态。仅使用CBCs时,我们的模型优于这些模型,并且仅在包含脓毒症发生前的复杂临床数据的模型中优于这些模型。目前尚无研究系统评价从基线(例如周)开始和接近脓毒症发病时的AUROC,因此,无法估计既往发表的模型中基线风险的比例。
PCT被认为是最为成熟的脓毒症生物标志物,在实验室中用于对疑似脓毒症的确认,然而,它的预测性能不足以被临床指南推荐用于脓毒症的诊断。为了提高诊断价值,可以将所提出的CBC模型与PCT相结合。在我们的数据集中,得到的CBC+PCT模型表现明显优于PCT,这强调了通过添加更多诊断生物标志物进行进一步开发的巨大潜力,这也将成为未来研究的主题。不过,为了使预测模型具有广泛的适用性,并考虑到CBC出乎意料的高预测能力,我们决定保持预测模型的简单性,不再增加其他诊断参数。
本研究有一些局限性,我们开展了一项基于ICD编码诊断的回顾性试验,ICD编码策略对脓毒症的发生率有影响,这可能解释了我们的训练和验证中心之间的差异。较轻的脓毒症病例可能较少被编码,这可能会导致偏差。不过,在提取数据时,我们只使用了明确的脓毒症相关ICD-10编码(MIMIC-IV的一部分使用了ICD-9编码),并对真阳性和假阳性病例进行了抽样验证。根据目前的文献,脓毒症的真实发病率被低估了1.4至3倍,因此,可以合理地假设我们的模型正确预测了某些患者但未对其进行编码。观察期间脓毒症定义的改变可能会进一步影响结果,大量仅有轻症的患者可能会对AUROC产生正向影响,因此,我们进行了队列分析,并证明了可比的性能。此外,我们没有全面评估所选择的ML算法,更小或更简单的模型可能提供类似的结果,其他学习算法可能获得更好的性能。然而,不同ML方法的系统比较不在本研究的范围内。由于我们的筛选过程,只能对(术后)手术患者的应用进行有限的评估。最后,本研究中进行的全面外部验证并不能替代根据本地数据对模型进行的验证和调整。虽然使用共同发布的软件进行再训练和验证可以在几个小时内完成,但本地数据提取所需的时间可能会有很大差异。
综上所述,我们证明了CBCs包含足够的信息,当与ML结合时,它有助于早期和可靠地预测患者因脓毒症入住ICU的风险。我们的方法在验证中表现出很高的稳健性,并且可以用任何CBC诊断进行计算而无需额外费用。CBC诊断广泛可用、易于执行、高度标准化、通常数字化程度高,并且周转时间短。在CDSS中,CBC模型可以缩短检测脓毒症患者所需的时间,而这些患者将从入住ICU中获益。这将使确定性治疗能够更早地开始,并有可能显著改善临床结果。作为基于实验室CDSS 的一部分,我们目前正在启动对CBC模型的前瞻性评估。
本文编译节选自:《Clinical Chemistry》, Volume 70,Issue 3 ,March 2024, Pages 506-515