机器学习对检验医学的发展与面临的机遇及挑战

作者: 4810
作者单位:编译丨本刊编辑部 2025-05-16

【摘要】机器学习(ML)目前被广泛研究和应用于包括检验医学在内的各个领域的数据分析和预测。为了全面评价ML在检验医学中的应用,我们回顾了2014年2月至2024年3月发表的ML在检验医学中应用的文献。通过使用搜索字符串在PubMed上进行搜索,共获得779篇相关文章,其中144篇文章被选入本综述。对这些文章进行了分析,以提取检验医学的相关领域、研究目标、样本类型、数据类型、ML模型、评估指标和样本量,并对其进行分类。使用桑基图和饼状图来说明类别之间的关系和每个类别内的比例。我们发现,大多数涉及ML在检验医学应用的研究都是为了通过自动化来提高效率或扩大临床实验室的作用。最常用的ML模型是卷积神经网络、多层感知器和基于树的模型,这些模型主要根据输入数据的类型进行选择。我们的研究结果表明,随着技术的发展,ML作为一种拓展研究活动的工具,在检验医学中的地位将日益突出。不过,要有效利用这项技术,还需要提高应用ML的专业知识。

【关键词】人工智能;临床实验室检测;检验医学;机器学习

近几十年来,机器学习(ML)在分析和预测能力方面取得了长足的进步,成为各个领域的重要工具。大数据和高性能计算的发展大大提高了ML算法的性能,从而使人们能够采用更有效的方法来应对复杂的挑战。人工智能(AI)分析大型数据集和识别模式的能力可以帮助临床医生诊断和预测临床结局。人们已经在医学影像分析、病人预后和个性化治疗计划等多个领域对ML的应用进行了研究。一些模型已获得食品药品管理局的批准,实现了商业化,并在临床实践中得到了应用。此外,为了减少误差,提高检验结果的准确性和可靠性,ML已在检验医学中进行了研究。ML处理或分析大型数据集,这有助于提取有意义的信息,否则将需要大量的人工工作。例如,ML提高了重复或人工密集型任务的效率,例如验证一般化学检测结果或分析血细胞和尿培养,ML具有强大的推理能力和大数据分析能力,可以有效地管理医疗卫生中频繁分析的各种数据类型,极大地提升检验医学水平。

本文就ML在检验医学中的应用现状进行综述。我们探讨了ML的主要用途、处理的数据类型、获得的结果,以及实现主要ML模型的特点和注意事项。基于这些发现,还分析了现有的研究挑战,并确定了潜在的未来发展趋势。

一、文献分析方法

1. 文献检索与筛选:在PubMed中检索了2014年2月至2024年3月期间在检验医学中使用ML的原始文章。将检验医学相关的关键词与ML相关的关键词组合,并排除不相关的主题(如COVID-19、基因组、磁共振成像、计算机断层扫描、超声、心电图和脑电图),生成搜索字符串。共检索到779篇文献,临床病理学家首先根据标题和摘要排除了检验医学范围之外的文章,对符合初筛的文章进行全文审阅。二次筛选的排除标准包括:(i)数据未用于临床实验室检验过程或并非来自实验室检验;(ii)数据与实验室的主要职责无关;(iii)实验室结果仅用于疾病预测;(iv)使用的ML模型未指定;(v)全文不可用;(vi)文章不是用英语撰写;(vii)文章未能提出原创性研究。当二次筛选结果不明确时,临床病理学家会审阅全文以确定其是否符合条件。最后,入选了144篇文章。

2. 文献分析:根据检验医学教科书中规定的标准,所选文章被分为检验医学亚专业:诊断血液学、临床化学、临床微生物学、分子诊断学、输血医学和诊断免疫学。对每篇文章的全文进行了分析,并总结了研究目标、样本类型、数据类型、ML模型、评估指标和样本量。“研究目标”被分类为“识别”(识别特定实体或进行二元分类)、“分类”(将其分为3组或更多组)和“计数”(量化细胞计数等元素)。“样本类型”是指用作ML输入数据的样本类型,可参考《逻辑观测标识符名称和代码》中的样本类型列表进行分类。“数据类型”是指与输入数据相关的材料类型,根据基于ML的研究中常用的分类方法分为图像、表格、序列和其他类型。然而,定制模型被描述为基础模型,在这种情况下,流行的模型(例如,You only Look Once[YOLO])使用各自的名称来描述。“评估指标”包括用于评估性能的所有指标,排除了在机器学习研究中不常用的不太为人所知的指标。“样本量”描述输入ML模型的样本总数,不考虑样本类型。采用桑基图从研究目标或数据类型等方面分析机器学习模型在检验医学中的应用趋势。当需要进一步综合分析各因素的比例时,我们使用饼状图直观地显示比例,以帮助理解每个项目的相对重要性。我们使用基于web的可视化工具(SankeyMATIC)创建了桑基图,并使用Python中的Matplotlib软件包(3.12.1版)创建了饼状图。

二、文献分析结果与简要情况

1. 基于ML的检验医学研究的关键特征:表1总结了我们对检验医学中ML的文献综述的要点。研究目标分为12个主题:自动审核、分类、实验室临床决策支持(CDS)、计数/列举、疾病筛查、错误检测、估计/预测、识别、基于人工智能(AI)的工具、数据生成/过程模拟、ML优化和预处理辅助。用于ML建模的输入样本数量在不同研究之间差异很大,即500-2,500万,并且在某些情况下没有明确报告。

表1. 2014年2月至2024年4月间ML在检验医学中的应用研究文献综述要点分类总结

主要评价指标为准确度、灵敏度、特异性和ROC曲线下面积(AUROC)。准确度指的是正确预测的百分比,而灵敏度(也称为召回率)则衡量模型识别真阳性的能力。特异性衡量模型识别真阴性的能力,这在需要对阴性病例进行正确分类时非常有用。AUROC通常用于全面评估分类模型的性能,表示不同阈值下的真阳性率和假阳性率。均方误差(MSE)是回归分析中的一个重要指标,指预测值与实际值之间平方差的平均值,MSE越小,表示准确度越高。平均绝对误差和决定系数也用于评价性能。很少使用的指标包括基于轮廓测量的相对距离误差和评估图像相似性的平均结构相似性指数。

2. ML在检验医学领域的应用:图1中的桑基图说明了代表性检验医学领域、使用ML的主要目标和表现最佳的ML模型之间的关系。识别、分类和计数/列举类别被归在“检测”项下,因为它们的目的相似。在分类之前,这些类别分别占总体目标的24.3%、23.6%和4.7%。在检验医学的六个领域中,诊断血液学是最活跃的研究领域,占本综述评估的所有研究的48.6%。 临床化学排名第二(28.5%),其次是临床微生物学(15.3%),分子诊断学、输血医学和诊断免疫学各占总数的<3%,表明这些领域对ML的使用率较低。ML主要用于诊断血液学的检测,占所有应用的70%。ML的第二常见用途是疾病筛查,占研究的15%。虽然在分子诊断、输血医学和诊断免疫学研究中有各种其他用途的报道,但没有关于ML用于错误检测的报道。相反,>50%的ML应用在临床化学中侧重于错误检测或估计/预测。

图1. 桑基图展示了代表性检验医学领域之间的关系、主要目标以及通过文献

回顾确定的应用ML的检验医学研究,时间跨度为2014年2月至2024年4月

值得注意的是,所有基于ML的错误检测都是在临床化学领域进行的。在临床微生物学中,检测占ML应用的>50%,但不包括错误检测。此外,这些研究中还报告了估计/预测、实验室CDS和基于AI的工具。在分子诊断中,ML仅用于检测目的。相反,在输血医学和诊断免疫学中,ML主要用于检测和估计/预测。在分子诊断、输血医学和诊断免疫学中使用ML的研究并不常见(每项<5项研究),因此难以概括。

对用于临床实验室检测的ML模型的分析显示,77%的研究使用了卷积神经网络(CNNs)、多层感知器(MLPs)和基于树的模型。在检测方面,约70%的研究使用了CNNs,而其余研究则使用了支持向量机(SVM)、树的模型、MLP或其他模型。同样,由于CNNs在图像分析方面的优势,例如能够从样本图像中识别特定细胞类型[如白细胞(WBC)和红细胞(RBC)]并对其进行分类,因此CNN在疾病筛查中得到了广泛应用,约有70%的研究使用了CNN。基于树的模型最常用于估计/预测,约占总数的30%。“基于AI的工具”类别是指主要评估基于AI模型的性能,通常不明确模型类型的研究。图2描述了ML模型在每个检验医学领域中使用的百分比。如图2A所示,在血液学诊断中,CNN是最常用的,占所有研究的80%,主要是由于其在血细胞分析和图像识别分类中的应用。临床化学中使用的模型最多样化(见图2B),反映了比其他领域更广泛的目的范围(见图1)。基于树的模型,如随机森林(RF)、极端梯度提升(XGB)和CNN模型主要用于临床微生物学(见图2C)。尽管这些模型的有效性尚未通过多项研究得到证实,但研究人员正在积极研究它们的潜力。CNN、logistic回归(LR)和SVM模型已应用于分子诊断、输血医学和诊断免疫学;然而,由于相关研究数量有限,未能观察到显著的趋势(见图2D-F)。

注:饼状图显示了ML模型在不同检验医学领域中使用的比例。括号中的数字表示每个字段中与ML相关的发表文章的数量,各种ML模型用于(A)诊断血液学,(B)临床化学,(C)临床微生物学,(D)分子诊断学,(E)输血医学和(F)诊断免疫学的频率显示。

图2. 基于2014年2月至2024年4月涉及ML应用的检验医学研究的文献综述

三、实验室在临床医学领域中ML的代表性用例

1. 临床化学:在临床化学领域,ML已被应用于预测生理和生化参数,如血糖水平、临床血脂浓度和尿培养结果,重点是预测和错误检测。使用连续血糖监测(CGM)数据进行的血糖预测研究表明,利用神经网络模型[如CNN、MLP和深度神经网络(DNN)]以及长短期记忆预测1型糖尿病的准确率超过90%。ML已被用于检测临床实验室测试结果中的错误,包括试管中的错误血液、样本标签和样本污染,这些错误可能在临床实验室测试过程中发生。有几项研究评估了使用ML模型自动验证临床实验室检验结果的可行性,而其他研究则将ML用于预处理和工作流程改进,以提高临床实验室检验的效率。用于验证临床实验室检验误差的ML模型包括神经网络(如CNN、DNN和MLP)、基于树的算法(如RF和XGB)以及基于统计分析的技术(如SVM和LR)。此外,ML模型还被用于解释甲状腺功能和尿液类固醇概况,以及识别和分类医学图像、尿液和血液样本中的特定细胞和结构。

2. 诊断血液学:在诊断血液学中,ML主要用于识别或分类血液图像中的血细胞,重点是从白细胞图像中提取特征,诊断血液相关疾病(如白血病)或对不同类型的血细胞进行分类。例如,ML已被用于识别镰状红细胞和计数细胞。一项研究使用生成对抗网络生成白血病细胞的图像。

3. 输血医学:在输血医学中,ML被用于评估输血的适宜性或通过检测存在的抗原来分析所需的血液信息。例如,ML已被用于分析血液中的血红蛋白和铁含量,以防止输血期间的铁过载或用于ABO血型鉴定。

4. 临床微生物学:大多数临床微生物学研究集中于细菌和尿培养的解读。ML模型已被用于确定尿液样本中引起尿路感染的主要细菌种类,以防止抗生素治疗延误,对细菌菌株进行分类,解读抗生素敏感性试验图像或对细菌菌种(如大肠埃希菌和金黄色葡萄球菌)进行分类。一些研究评估了商业化的基于AI的尿培养判读系统Automated Plate Assessment system(APAS)。已经研究了CNN在临床微生物学中图像分析的应用。LR、RF和SVM模型已用于分析尿路结石患者的尿培养结果和临床信息,用于抗生素剂量管理。

5. 诊断免疫学:在诊断免疫学方面,大多数研究分析了HEp-2细胞的模式,这种细胞是自身免疫性疾病的诊断生物标志物。研究人员提出了一种使用CNN检测HEp-2细胞特征的自动免疫荧光模式分类框架,结果表明该框架有助于减少人工误差并高效地对大量数据进行分类。

6. 分子诊断:在分子诊断学中,ML已被用于染色体核型分析中的染色体研究,包括染色体检测和定位,通过癌细胞染色体核型分析来诊断血液肿瘤细胞,以及检测血液样本中的循环肿瘤细胞,这些研究大多采用CNN。

四、开发用于检验医学实践的ML模型

在图3中描述了发表年份、最佳ML模型和所用输入数据之间的关系。ML模型的使用越来越多(图3)。MLP于2014年率先被采用,直到2016年仍是最常用的模型,之后其使用率开始下降。自2016年和2018年分别推出CNN和基于树的模型以来使用量有所增加,虽然它们仍然是使用最广泛的模型,但其他模型的使用率不断增加,表明随着ML的发展,人们正在共同努力使模型的范围多样化。

图3. 基于2014年2月至2024年4月在检验医学中应用ML的文献回顾,

显示年份、最佳ML模型和数据类型之间的关系的桑基图

图像数据占所使用数据类型的最大比例,约为60%。在使用图像数据的ML研究中,由于CNNs在处理图像数据方面的优势,85%的ML研究采用了CNNs(见图3)。除了CNNs之外的各种ML模型都被用于分析表格数据。在分析序列数据时,仅使用了DNN和基于树的模型。图4说明了检验医学中常用的ML模型的基本原理。

注:(A)基于sigmoid函数的LR,表示为0和1之间的概率值除以阈值;(B)使用超平面和SVM进行样本分类的示例;(C)MLP由输入层、隐藏层和由连接感知器组成的输出层组成;(D)DNN包含比MLP更多的隐藏层,是MLP的延伸;(E)CNN由卷积层组成,主要用于图像处理;(F)基于DT的模型遵循树状结构中的决策规则

图4. 不同ML模型的特征

1. LR模型:LR通常用于解决二分类问题。LR使用logits来计算因变量属于特定类别的概率,产生0到1之间的输出值(图4A),LR的预测函数如式(1)所示。其中,p代表因变量 y等于1的概率[P(Y=1)],β1是自变量x的回归系数,β0是y的截距。LR不仅能预测分类问题中的类标签,还能生成因变量属于某一特定类的概率,从而为可以用概率表示的预测提供置信度。然而,LR无法轻松地对非线性数据进行分类。

2. SVM模型:SVMs代表用于模式识别、数据分析、分类和回归分析的传统监督学习模型。SVM首先会选择一个超平面(图4B),该超平面能使类之间的边界最大化。随后,对于每个数据点xi,模型会确定一个权重w和偏倚b,满足以下条件:yi(w-xi+b)≥1,其中yi是数据点xi的类标签(+1或-1)。SVM 被广泛应用于分类问题中,它对异常值具有很强的鲁棒性(稳健性),因此可以防止过度拟合。然而,它们的计算负荷会随着维度的增加而呈指数增长,这给管理大型数据集带来了挑战,它们的决策边界是线性受限的。

3. MLP模型:MLPs也称为前馈神经网络,由一个或多个隐藏层组成,输入层和输出层之间完全相连(图4C)。每一层由多个节点组成,每个节点通过将上一层的输出与权值相乘并求和来执行计算。随后,对这些值应用激活函数,以确定节点的最终输出值。节点j的输出值zj利用公式(2)得出。

其中,wij是连接上一层节点i和当前节点j的权重,ai是上一层节点i的输出,bj是节点j的偏倚。虽然MLPs可以解决复杂的非线性问题,但权重系数的数量可能会随着模型复杂度的增加而呈指数增长,从而导致训练数据的过度拟合。

4. DNN模型:DNN是MLP的扩展,在输入和输出层之间包含多个(通常为三个或更多)隐藏层(图4D)。隐藏层数量的增加提高了模型学习数据模式的效率,使其能够解决更复杂的非线性问题。DNN的一个关键优势是从数据中自动提取特征的能力,消除了手动提取的需要。然而,这种能力需要大量的数据和计算资源,而且与MLPs类似,它们很容易发生过拟合。

5. CNN模型:CNN是一种包含卷积层的人工神经网络,由于它可以捕获时空特征,因此通常用于图像或序列数据处理。CNN通常包括输入层和输出层,以及多个与池化层、全连接层连接以生成输出的隐藏卷积层(图4E)。卷积运算的数学表达式为公式(3)。其中,X是二维输入(如图像),K是滤波器,(i,j)是二维输出索引,M和N分别是滤波器的高度和宽度。滤波器(也称为掩码或内核)是卷积操作中使用的数字矩阵。CNN被用作各种模型的基本架构,包括ResNet、YOLO和AlexNet模型,因为它们可以保留空间信息并通过卷积运算处理图像。

6. 基于树的模型:树状模型以决策树(DTs)为基础,其中RF和XGB(DT的扩展)是最典型的例子。DT模型以树状结构表示基于数据特征的决策规则,是一种有监督的学习模型,主要用于分类。DT模型的特点是具有多个分支和节点的分层树结构,这些分支和节点分别代表决策结果和类标签(图4F)。DT模型的决策过程很容易解释,但是,对于复杂的数据集,单树模型可能无法提供令人满意的预测结果。RF模型使用多个随机生成的DTs进行决策。RF模型不容易出现过拟合,并能通过组合多个决策树提供出色的预测,但其决策过程不易解释。XGB是一种基于DT的提升方法,它通过按顺序连接DT并补偿其错误来学习。XGB有一些局限性,包括参数调整方面的挑战、高计算成本以及(类似于RFs)难以解释决策过程。

五、验证和优化及评估

1. 验证:主要采用了三种验证方法。双向法在训练集上训练模型,并在测试集上对其进行评估;三向法使用训练集进行训练,使用验证集进行验证,使用测试集进行最终评估;k倍交叉验证法将数据集分成k个子集,在k-1个子集上训练模型,并在剩余的子集上进行测试。IFCC支持k倍法用于ML研究。然而,在纳入的144项研究中,有94项(65.3%)未采用k倍交叉验证。

2. 优化:超参数决定了训练速度、批量大小和隐藏层数等方面,对ML模型的性能至关重要。正确的超参数设置可以提高预测准确性和稳定性,防止过度拟合,优化资源使用,并确保新数据的可靠性能。只有12项研究(8.3%)采用了正式的优化技术(如网格搜索、随机搜索和贝叶斯优化)。在16项研究(11.1%)中,优化是随意进行的,而在其余研究(80.6%,116例)中,超参数优化要么没有进行,要么没有全面描述。

3. 评估:我们评估了外部和内部验证的有效性,并指出了涉及外部验证的研究中的问题。在7项研究中,使用外部验证数据的性能明显下降于使用训练和内部验证数据。例如,在一项旨在使用CNN和血涂片图像诊断白血病的研究中,准确率提高到98.61%(而另一项研究的准确率为92.79%),然而,在外部验证过程中,准确率下降到70.24%,表明可能存在过拟合。然而,在一些研究中,性能差异很小,甚至使用外部验证数据时显示出更高的AUROC值。这些结果归因于训练数据和外部数据的类似预处理或使用适当的正则化技术来防止过拟合。15项研究中有2项涉及使用外部验证数据,但没有提供精确的结果,使得性能比较更加复杂,凸显了在缺乏外部验证结果时评估模型性能的困难。

六、ML在实验室医学中应用的挑战和机遇

本文分析了ML在检验医学中的应用情况,使用ML模型的总体趋势以及用于研究的ML模型的主要类型。

1. 现阶段应用情况:如前所述,ML主要应用于诊断血液学,这主要是因为许多检验医学检测都侧重于血液分析。显微镜图像包含一些肉眼难以识别的复杂细节,不同的评估者得出的结果也可能不同。引入ML可以将现有的定性评估转变为定量评估,并减少误差范围,这可能是涉及ML应用的研究数量不断增加的原因。相反,应用ML较少的领域,如诊断免疫学和输血医学,则专注于成熟的流程,如输血的血型确定和免疫检测。出现这种趋势的原因可能是数据输入有限,而且ABO分型等测试对准确性的要求极高,从而降低了对复杂ML方法的需求。自2014年以来,ML在实验室检测中的应用逐年增加(见图3)。最初,ML的应用仅限于MLPs和CNN等模型;然而,随着这些模型的发展,所使用的ML模型及其应用的多样性也得到了扩展。此外,估计/预测和疾病筛查总共占所有ML应用的约25%,这表明它们在增强临床实验室提供的数据方面发挥了重要作用。这一进展表明,ML在预测疾病发生或加强疾病筛查过程方面发挥着越来越重要的作用。

基于CNN、MLP和树的ML模型已广泛应用于临床实验室。随着ML技术的进步,各种被归类为“其他”的模型的适用性也得到了评估;不过,CNN等成熟的模型仍占主导地位。DNN的开发比MLP晚得多,因此尚未被广泛采用。Stevenson等人使用ChatGPT(v3.5)和Google Bard等大型语言模型(LLM)来解释临床测试结果,并根据假设输入提供建议(类似于临床医生的角色)。在更广泛的检验医学领域内超越专业化,最新证据表明,ChatGPT等聊天机器人生成的回复质量一直超过临床医生提供的回复。随着欧洲临床化学和检验医学联合会等机构正在研究检验医学的LLMs,未来这种情况很可能会发生变化。

2. 确保经过临床验证的性能:准确率和AUROC是最常见的评价指标;然而,在处理类别不平衡数据时,必须考虑适当的评价指标。当检验类(如疾病患者)和对照类(如无疾病患者)的比例相差很大时,就会出现数据不平衡。任何涉及每类样本数量不等的情况都表示数据不平衡,而严重的不平衡在训练过程中尤其容易出现问题。虽然目前还没有一个统一的定义,但研究人员通常会将少数类别占总数据集≤10%的情况归类为严重失衡。这种不平衡会使学习偏向多数类,从而导致少数类(通常代表疾病群体)的预测结果不尽如人意。为了解决这个问题,应该使用F1分数等指标;然而,一些研究并没有考虑这方面的问题。在今后的研究中,评估ML模型性能时必须解决数据不平衡问题,并采用适当的评估指标。在临床实践中有效使用ML有一些指导原则。IFCC提出了在临床研究中应用ML的15项建议,涵盖(1)利益相关者、(2)目标、(3)临床场景、(4)数据描述、(5)训练和验证数据的统计分析、(6)确保正确数据准备的步骤、(7)数据集多样性、(8)伦理设计、(9)验证方法、(10)测试集的使用、(11)性能指标、(12)外部验证、(13)可解释性、(14)代码可用性和(15)普遍适用性。

本文论述中的大多数研究都遵守了IFCC建议2、4、7和10,但提供的详细程度各不相同。例如,在一些研究仅简要讨论了数据收集过程,而另一些研究则详细解释了所有数据收集和处理步骤。这种差异可能反映了所使用数据的类型、复杂性和多样性的不同,但也可能是由于缺乏描述数据收集和处理程序的详细指南。与验证模型可靠性和性能验证相关的建议,如 IFCC建议9、11、12和15,在很少的研究中出现。尽管这些建议不仅对评估模型性能,而且对评估稳健性、普遍适用性和临床实用性都至关重要,但它们尚未被广泛采用,这表明研究人员可能没有意识到适当的验证方法和程序对确保基于ML的研究结果可靠性的重要性。 在大多数研究中,与性能不太直接相关的IFCC建议(如,第1、3、5、6、8、13和14条建议)并未得到普遍采纳,这表明实验室医学领域采用ML仍处于早期阶段,确认其高性能潜力应是首要重点。值得注意的是,关于公开数据和代码的建议14在一般的ML研究中经常被采用,但在医学领域,由于病人隐私和数据安全方面的考虑,通常会受到限制。

总之,一些基于ML的研究可能是在没有足够机制确保结果可靠性的情况下进行的。建立标准化的方法和准则对于促进稳健的ML研究和产生可比较的结果,以及提高此类研究的可重复性和可信度至关重要。目前,研究伦理和更广泛的生态系统在ML研究中的代表性不足,随着ML融入临床实践,对研究伦理和生态系统的全面考虑将至关重要。迫切需要制定切实可行的战略,将这些方面作为基础研究的组成部分。

七、限制

虽然我们打算进行一篇全面的论述,但分析某些实验室领域存在局限性。(1)我们不能在构建搜索字符串时包含所有在检验医学或ML中使用的特定关键词;因此,一些文献可能被遗漏。此外,在检索和筛选期间,排除了我们认为与实验室实践相关性较低的文献。因此,与解剖病理学和疾病预测(包括脓毒症)相关的研究被省略。为了避免偏倚,我们排除了COVID-19相关研究,因为它们代表的是ML的暂时流行,而不是普遍应用。(2)虽然临床实验室进行基因或外显子组分析是为了病人护理,但本综述中研究的大多数基因组相关论文都是为了研究而非临床实践。虽然本综述没有包括这些主题,但它们是检验医学中的重要问题,值得单独进行综述。(3)在解释本文提供的结果时必须考虑某些方面,例如,桑基图只显示了“最佳ML模型”,这可能无法准确代表多样性,因为它没有列举目前使用的所有模型。在简化模型类别时,DNN被表示为具有全连接层的典型网络;因此,要准确捕捉 DNN在更大范围内(包括深度CNN)的趋势具有挑战性。(4)评估AI模型的可重复性和变异性对评估模型性能至关重要。为了准确地评估这些因素,必须控制某些条件(例如,相同的分析目标和数据集),并且必须使用一致的评价指标。然而,在综述的研究中,分析目标、使用的数据集和性能评估指标差异很大,因此无法在同一基础上直接比较和分析不同模型的性能。为了在一定程度上分析可重复性和可变性,我们基于外部验证研究分析了性能变化。虽然这种方法不同于重复分析相同的数据来评估模型输出的稳定性和可重复性,但比较外部和内部验证结果可以提供有价值的见解,以了解模型的普遍适用性,这是评估模型整体性能的关键。(5)ML用例的分类可能是模糊的,并且有待解释。我们根据ML模型的最终输出对此类病例进行了分类。此外,根据检验医学领域、样本类型和所用ML模型的不同,评估ML输入样本适当数量的标准可能有所不同。因此,使用更精确的搜索字符串和更明确分类标准并考虑不同样本量的评价标准的分析将是有用的。(6)尽管本文没有考虑,但确保数据质量是ML研究的先决条件。为了为使用ML提供一个更强大、更实用的蓝图,应该考虑整个过程(从数据采集和预处理到使用各种模型进行分析)。

结论:ML在检验医学中的应用正处于持续增长和多样化的阶段。迄今为止,CNN、MLP和基于树的模型一直占据着主导地位,数据类型是影响模型选择的主要因素。不过,随着ML技术的发展,很可能会引入新的模型。我们发现了一些与ML应用相关的技术挑战,主要涉及数据不平衡、超参数优化缺失、评估指标不足以及外部验证不足。这些发现强调了更复杂的ML研究设计和专家参与的必要性。考虑到ML的快速发展及其在检验医学中的既定相关性,我们预计加强长期教育和促进领域专家之间的合作将优化ML在该领域的应用。

编译节选自: Ann Lab Med. 2024 Nov 26; 45(1): 22-35