机器学习在临床微生物学检验AI图像分析中的应用优势与面临的挑战
【摘要】临床微生物实验室不断向数字化的过渡为使用软件判读图像创造了机会,软件分析工具可以设计为使用人为整理的知识和专家规则,但更新颖的人工智能(AI)方法,例如,机器学习(ML),这些AI图像分析(IAAI)工具开始渗透到常规临床微生物学的工作流程中,其范围和影响将继续扩大。本综述将IAAI应用分为两大类:(1)罕见事件检测/分类,(2)基于评分/分类。罕见事件检测可用于微生物的筛选或最终鉴定,包括显微镜检测原始样本中分枝杆菌、在营养琼脂上检测细菌菌落或检测粪便样本或血涂片中寄生虫。基于评分的图像分析可应用于将图像整体分类作为其结果判读的评分系统,如,Nugent评分用于诊断细菌性阴道病和判读尿培养物。文中探讨了IAAI工具的优势、挑战、开发和实施策略,总之,IAAI开始影响临床微生物学的常规工作流程,可以提高效率和质量。尽管IAAI的未来充满希望,但目前IAAI只是辅助增强人类的工作,而不能取代人类的专业知识。
【关键词 】人工智能;临床微生物学;机器学习
图像通常是临床微生物学的主要结果,然后对结果进行判读,包括染色的显微镜玻片、营养琼脂上的微生物菌落形态以及药敏试验中的生长情况。尽管这些图像传统上用模拟人眼的方法观看和人工判读,但临床微生物实验室向数字化的日益转变为使用软件判读图像创造了机会。软件分析工具可以设计为使用人为整理的知识和专家规则,但机器学习(ML)等更新颖的人工智能(AI)方法正在融入临床微生物学的工作流程中。在PubMed上粗略搜索“artificial intelligence”一词,可以得到过去十年的180,000多个结果,使用人工智能的软件开发数量和医学研究数量令人眼花缭乱,本文将仅回顾其中一小部分研究,这篇综述旨在为读者提供当前研究进展的概述并选择与临床微生物学工作流程相关的细节,如,算法开发方法和临床验证的考虑因素(图1,相关术语见表1)。
图1. 用作图像数据分析的计算机模拟(in silico)诊断设备的监督机器学习工具的典型开发和临床验证流程蓝框(1和3)表示需要临床微生物专家输入和评估的步骤。黄框(2)表示数据专家执行的算法开发。第1步需要对数据进行整理和标记,这些标记数据将作为数据算法训练的输入。步骤2使用标记数据来训练、验证和测试机器学习算法,执行迭代的计算机模拟训练和验证步骤,并调整算法以实现最佳性能,然后,分析独立测试集以确认算法在计算机模拟中的性能符合预期,算法开发完成后基本上就锁定在最终状态。步骤3中,最终算法的性能作为计算机模拟诊断设备在临床实验室中进行评估,如果算法在实际的临床实验室验证尝试中表现良好,那么该算法可以作为计算机模拟诊断设备应用并用于患者护理。
表1. 关键术语的定义和说明
一、人工智能在临床微生物学中的机遇
现代技术促进了大量数字数据的创建和存储,但传统的数据分析工具似乎往往不足以彻底分析这些庞大的数据集。AI算法可以通过训练来模式识别,并从数据(包括图像数据)中得出推论。机器学习(ML)是一种能够自动和简化大型数据集分析的方法,ML指无需明确指令即可学习和适应的计算机系统。在临床微生物学中,ML是可以预测抗生素敏感度或发现抗菌药耐药性的新决定因素,还可以提高临床微生物学图像判读的质量和效率。
二、使用人工智能判读图像数据
在临床微生物学的工作流程中,图像分析可以使用静态“快照”图像作为输入数据(例如营养琼脂平板),也可以使用包含整个显微镜载玻片的一组图像(即全载玻片图像[WSI])。IAAI将图像数据作为输入,然后根据一系列规则生成输出分类,这些规则可以是专家确定的基于规则逻辑的简单规则。然而,监督ML采用的是一种不同的方法,即使用一种复杂的算法来判读未经处理的数据(如,数字图像),该算法是以一组准确注释的图像作为参考标准而开发的。监督ML的广泛类别包括各种类型的算法,但一种常用的方法是卷积神经网络(CNN),它在IAAI中的效果尤为出色,CNN通过互连卷积算法来模仿人视皮层的神经网络。监督ML算法的开发包括3个阶段:训练、验证和测试(图1),一旦ML算法开发完成,就可以进行临床验证。所开发的ML算法可被视为计算机模拟诊断(ISD)设备或医疗器械软件(SaMD),在应用于临床使用之前,应像体外诊断(IVD)设备一样对其进行临床和技术验证,以便为患者诊疗决策提供信息。当使用ISD IAAI设备时,输入图像作为实验室结果,算法的输出是对结果的判读。ISD IAAI应用程序可能因诊断需求而异,但为了简单明了,本综述将IAAI应用程序分为两大类:(i)罕见事件检测/分类或(ii)基于评分/分类。
三、罕见事件检测
IAAI可用于罕见事件检测,罕见事件检测可用于微生物筛选或最终鉴定,可以定性或定量,包括显微镜检测原始样本中分枝杆菌、在营养琼脂上检测细菌菌落或检测粪便样本或血涂片中寄生虫。
1. 原始样本中分枝杆菌:分枝杆菌属是小型(2-5μm)抗酸杆菌(AFB),需要抗酸染色才能进行常规显微镜目视检测,已经开发出用于解剖病理学的AFB检测。Pantanowitz等人创建了IAAI来筛查WSI中的AFB,该算法由基于“小块”的方法组成,其中每个WSI被分为非重叠的图像片段(即“小块”),这些图像片段被定性为AFB的阳性或阴性。这个设计重复了两次,首先采用更灵敏的方法,然后采用更具体的方法来减少假阳性结果。以受试者工作特征曲线下面积(AUC)作为算法性能的标志时,单独使用灵敏度较高的算法时,AUC为95%,单独使用特异性较高的算法时,AUC为92%,而将两种算法联合使用时,AUC为96%,优于使用单一算法的结果。正向小块在WSI中以数字圈出,这样用户就可以查看感兴趣的特征,该研究得出结论,无论杆菌数量如何,IAAI都能提高分枝杆菌的检出,与使用传统光学显微镜进行人工审核相比,该算法缩短了审核时间,并减少了人工审核的工作量。这种算法辅助方法的特异性与病理学家显微镜审核和WSI审核相似,但提高了灵敏度,从而减少了假阴性。与显微镜筛选载玻片(43.8%)或人工审核WSI(38.4%)比起来,病理学家将算法辅助审核归类为简单审核的比例明显更高(93.5%)。
IAAI可用于在临床微生物实验室中使用光学或荧光显微镜筛选原始样本的AFB,有两项研究介绍了使用metaSystems分析荧光扫描作为 AFB 检测的数据输入,使用AI辅助时,判读每张片子所需的人工时间减少了90%,但AI的准确性与模拟阅片不一样,在玻片水平,AI的灵敏度高(97%),但特异度低(13%)。与单独使用算法相比,专业人员审核被算法识别为“疑似AFB”的数字图像有助于提高特异性,特异性从13%提高至89%。斯坦福研究小组得出的一个结论是,低分辨率与次优聚焦相结合可能会影响算法的性能,将数字显微镜应用于临床微生物学时,最佳图像聚焦和潜在微生物的足够分辨率是长期面临的挑战,无论判读者是人类还是计算机,这一挑战始终存在。
2. 菌落检测:平板图像的IAAI可用于缩短微生物检测的时间,减少检查培养平板所需的时间和/或提高生长解读的准确性。Faron等人使用常规细菌自动化设备,通过IAAI从100,000多张琼脂平板图像中识别出耐万古霉素肠球菌(VRE)菌落,训练有素的算法能识别出在显色VRE培养基上生长的蓝色菌落。研究中使用的参考标准是对相同培养平板的人工审核,与人工方法相比,IAAI的阴性符合率(90%)并不完美,但是,对4.8%(499/10,348)的“假阳性”IAAI检测结果进行复审后发现,这些结果是使用人工审核得出的假阴性结果,与参考方法相比,IAAI算法具有优秀的阴性预测值,未发现假阴性,使84%(87,979/104,730)的VRE培养物被鉴定为阴性。
3. 虫卵和寄生虫检测:粪便样本中寄生虫的鉴定是一项劳动密集型工作,对技术能力要求很高。在美国,真正虫卵和寄生虫(O&P)感染的预测试概率很低,每次阳性结果需要微生物专家花费数小时的时间。Mathison等开发了一种深度学习CNN,用于检测三色染色粪便样本中的寄生虫。玻片以0.1214μm/像素的分辨率,×82.4倍放大率进行数字化处理。在3个不同深度扫描视野,软件从Z-stack中选择最清晰的平面,扫描区域拼接成完整的扫描图像。127张阳性玻片训练该软件识别一组常见寄生虫:十二指肠贾第鞭毛虫包囊、十二指肠贾第鞭毛虫滋养体、芽囊原虫、脆弱双核阿米巴、非哈特曼内阿米巴滋养体、哈特曼内阿米巴滋养体等,经过训练的模型还识别了红细胞、白细胞和酵母菌,以防止算法可能将这些类型误认为寄生虫。在临床应用过程中,专家补充了ML算法,因为IAAI ISD设备筛查了寄生虫的WSI数据,但寄生虫的确认是在报告之前由专家进行的。在样本水平上,AI辅助增强的工作流程和传统的人工显微镜检测之间有极好的阳性和阴性符合率(99%的PPA和98%的NPA),然而,与传统的人工工作流程相比,AI模型的检测极限低了32倍。精确率-召回率图评估了机器学习验证阶段后模型的持续性能,总召回率为83%-92%,具体取决于可接受的置信度分数。Mathison等人的AI辅助增强工作流程帮助了医学实验室专家和寄生虫专家,并且性能数据(阳性和阴性符合率)将专家审核纳入工作流程,例如,如果模型标记了含有寄生虫的载玻片,则由实验室专家审核载玻片进行确认,并将其发送给训练有素的寄生虫学专家进行最终鉴定。同样,偶尔出现的可疑假阳性玻片需要人工审核,而缺乏寄生虫的玻片在确认时需要更短的人工审核时间。这种用于识别和确定罕见事件的AI增强法有可能提高大规模样本量环境的工作效率。
4. 血液寄生虫:巴贝西虫病的诊断不仅需要对病原体进行定性鉴定,还需要对原虫血症百分比进行定量。一些作者开发了IAAI算法来自动化检测和定量过程,Durant等人通过二值图像分类训练了一个IAAI模型,该模型可计算验证集的原虫血症百分比。该模型在开发训练和测试阶段都表现出了很高的精确度,然而,临床验证阶段却发现了由缗线状引起的假阳性错误,而开发阶段未充分遇到这种情况,凸显了无论算法在测试环境中的表现如何,都需要进行严格的临床验证和质量监控。与巴贝西虫病类似,疟疾也需要病原体鉴定和原虫血症百分比的定量。WHO最初为疟疾镜检能力外部评估认证(ECAMM)计划创建了一套55张的玻片,之后作为临床验证评估了全自动疟疾诊断IAAI平台EasyScan GO的性能,EasyScan GO的开发使用了来自11个国家的500多张玻片,在WHO的参考组中,EasyScan GO能准确检测出33/35的寄生虫玻片中是否存在疟疾(灵敏度94%),没有检测出假阳性病例(20/20,特异性100%)。在检测到疟疾的病例中,IAAI对半数病例中的寄生虫定量在参考计数的25%以内。EasyScan GO算法符合ECAMM评估玻片设置的最高认证级别的标准,该算法的物种鉴定准确率较低(82.9%),对应的认证级别也较低。作者认为,在评估治疗效果时,EasyScan GO可作为评估原虫血症后续系列血涂片的宝贵工具。虽然IAAI尚未常规用于疟疾诊断和监测,但已经开发了算法,并且表现出与寄生虫专家媲美的性能,IAAI很可能在未来的疟疾临床实验室检测和监测中发挥作用。
四、基于评分或类别的分类
除罕见事件检测外,图像分析还可应用于评分系统,将图像整体分类作为其结果判读,判读并不一定与图像中单个特征的存在与否直接相关。
1. Nugent评分用于细菌性阴道病分类:细菌性阴道病(BV)是正常菌群遭到破坏,导致厌氧菌过度生长,BV实验室诊断的参考标准是革兰染色的Nugent评分。Nugent评分使用革兰氏染色对革兰氏阳性杆菌、革兰氏阴性球杆菌和革兰氏阴性弯曲杆菌进行半定量,理想情况下分别与乳酸杆菌属、加德纳菌属和莫比伦氏菌属相关。Nugent评分对应的临床判读的类别:评分0-3分(乳酸杆菌属优势,与正常菌群一致),4-6分(混合形态,表明阴道菌群改变),7-10分(无乳酸杆菌属,诊断为BV,其他形态类型占优势)。Wang等人开发了一种CNN模型(NugentNet),用于分析和阴道革兰氏染色评分,该模型使用超过23,000张图像进行训练,并使用另外5,000张图像进行验证,NugentNet软件能够在2.4s内判读100张图像。通过重新训练CNN以准确判读来自不同实验室的图像(如,具有可变白平衡和分辨率的相机)来调整模型后,与在单独实验室使用单个相机的数据上训练的原始CNN模型相比,模型在灵敏度(提高24%)、特异性(提高9.5%)和准确度(提高10.2%)方面均有所改善,NugentNet的准确度(75.1%)可与包括医学实验室专家和产科医生在内的综合判读参考标准相媲美。在检测BV方面,NugentNet的灵敏度低于一般人工判读(89.0%,94.9%),但特异性更高(85.0%,74.6%)。总体而言,与产科医生(94.4%、93.9%和80.9%)相比,该模型的灵敏度、特异性和准确度(89.0%、85.0%和75.1%)略低,与医学实验室专家(96.5%、62.2%68.5%)相比,该模型的特异性和准确度更高。这一表现表明了在性能良好的IAAI中观察到的一个普遍事实,即软件学习将其判读为监督参考图像分类专家的平均值。因此,使用专家精选的图像进行IAAI算法训练是必要的,以实现最高质量的算法性能。
2. 细菌培养判读:细菌培养自动化包括平板的数字图像采集,目前已有用于平板罕见事件检测的软件,可以更早或更灵敏地检测用于筛选和分类尿液的显色培养基混合物生长情况,数字阅片软件还有自动判读非显色培养基原代培养物的潜力。Copan WaspLab(意大利布雷西亚)、BD Kiestra(荷兰德拉赫滕)和Clever Culture Systems APAS(瑞士苏黎世)提供IAAI解决方案,以帮助对细菌培养(包括尿液培养)的生长进行分类。APAS使用一种根据菌落计数对尿培养平板进行分类的方法,是第一个获得FDA批准使用IAAI进行平板判读的系统。Copan推出PhenoMatrix和BD推出尿培养App,帮助实验室专家判读原代样本在培养基上的细菌生长(或无生长)情况。BD和Copan解决方案可检测菌落、对其进行计数和分类,然后,专家规则会根据菌落数量、菌落类型和菌落特征(如颜色)创建决策树,IAAI的这种分类与专家规则叠加有助于提高实验室的工作流程效率。
其他研究小组发现,使用图像软件对显色平板上的细菌菌落进行定量和区分时,灵敏度同样很高。Faron等人创建了一个图像分析模型,与人工判读检测细菌生长相比,该模型对细菌菌落生长检测的灵敏度较高(99.8%),特异性较低(68.5%)(10,000 CFU/mL判断折点的定量符合率为88.9%)。在IAAI辅助下,阳性和阴性结果的平均结果时间均缩短。一项研究报告了麦康凯琼脂平板自动读数软件取得了成功,显示出对生长检测的高灵敏度(99.8%)和对筛选培养生长的可接受特异性(72%)。另一项研究在训练IAAI算法识别和分类平板上的单个菌落时放弃监督特征标记的能力,没有训练算法准确地检测、计数和分类平板上的菌落(随后需要专家规则判读),而是对图像进行全面分析和分类,而无需专门训练IAAI算法如何计数菌落或区分混合生长。
3. 抗菌药物敏感性判读:IAAI可用于辅助抗菌药物药敏试验。研究人员尝试使用BD Kiestra数字图像人工测量纸片扩散抑菌圈,但目前,BD Kiestra系统尚未通过AI自动进行测量。Radian、SIRscan和BioMic V3为测量纸片扩散抑菌圈提供IAAI支持。BioMic V3和Sensititre Vizion使用IAAI判读微量肉汤稀释法药敏试验。
五、IAAI的优势
在微生物实验室中应用IAAI可以缩短结果周转时间、减少手工操作时间,并且在某些情况下可以提高检测灵敏度。在一项研究中,将细菌检测自动化与IAAI相结合的增强工作流程,估计阴性培养物的手工处理时间减少了80%,在另一项使用IAAI的研究中,尿培养的结果时间缩短了4小时。IAAI辅助算法还可以减少感知到的工作量,并大幅缩短操作人员罕见事件检测所需的时间。IAAI算法通常具有较高的灵敏度和阴性预测值,因此阴性结果(例如,培养基中无生长或粪便检查中没有发现阿米巴原虫)非常可靠,并且无需人工干预或人工审核即可报告。简化IAAI应用中阳性结果的管理工作流程可以提高质量和效率,因为医学实验室专家和临床微生物专家可能更专注于病原体鉴定,避免了繁重的阴性样本审核相关的工作。
六、IAAI面临的挑战
在尝试将IAAI用作ISD设备时,应仔细考虑样本和图像的质量,与人一样,IAAI算法可能拒绝或不会处理数量不足或准备不充分的样本。重要的是,在IAAI开发过程中遇到异常或数量不足的样本时不会被AI平台给出错误的判读。改变分辨率、亮度和选取的物理区域会影响IAAI的判读,虽然一些研究报告将模糊程度作为拒绝标准,但其他平台即使在图像失焦的情况下也会解读数据。背景伪影也会影响IAAI对样本评估的能力,其他疾病过程的存在也可能成为混杂变量。在微生物实验室中应用IAAI时,合适的图像分辨率是一个挑战。例如,Wang等将他们原来的CNN模型重新创建为一个新的CNN模型—NugentNet,增加了更多的卷积层,以适应不同实验室的不同相机获得革兰氏染色的分辨率。一旦图像大小压缩到224×224像素,阴道加德纳菌的图像数据基本上就会消失,新模型将分辨率提高到1,024×68像素,以保持对阴道加德纳菌的检测。虽然IAAI算法可以提高灵敏度,但准确度并不总能显著提高,灵敏度的提高可能导致假阳性结果,最终使IAAI结果出现偏差。IAAI模型开发人员可以通过训练多个模型、运行算法、挑选最佳拟合以及调整预测试概率来影响模型的灵敏度和特异性,从而影响统计性能。寻找充足的测试样本需要花费大量的时间和精力,而且在开发期间可能无法获得这些样本。IAAI模型具有学习和加强的潜力,这可能导致它们偏离最初的验证测试,然而,如果没有在每次软件迭代更改后使用独立的临床验证阶段来验证ISD的性能,学习型IAAI方法很可能不会用于临床实践。周密的临床验证必不可少,即使可靠的IAAI也可能使用人工审查来复审和验证重要的诊断结果。目前,IAAI在常规临床应用中最适合用于辅助增强医学实验室专家和临床微生物专家的工作,而不是取代他们工作,这些IAAI工具尚未常规用作无需人工审核阳性样本的ISD设备。除了上述IAAI的技术挑战之外,实验室人员在AI方面的专业知识有限以及缺乏能够进行常规自动图像捕获的广泛应用的设备是阻碍IAAI工具开发和应用的两个障碍。
七、未来的展望
1. 未来AI对微生物实验室的影响:我们预计,未来十年,IAAI将在临床微生物学常规工作流程中发挥重要作用,IAAI工具的高灵敏度和净现值可用于筛查阴性样本,从而提高大批量工作流程的效率、减少耗费在劳动密集型任务上的时间,也可为专业知识有限但有数字化的工作环境中提供支持,此外,IAAI软件可以设计并用作实验室质量管理体系的一部分,以复核人工图像判读。虽然IAAI可以提高效率和质量,但预计IAAI无法解决实验室数十年来一直存在的人员短缺问题。目前,IAAI系统需要人类的专业知识来开发、验证和维护,我们希望在可预见的未来,将IAAI用作ISD设备时,IAAI与人类专业知识之间的这种相互依存关系仍然是实践标准。
2. 为IAAI的应用做准备:微生物实验室工作人员应努力熟悉IAAI的应用,并认识到IAAI可能在这十年成为微生物感染诊疗标准的一部分。IAAI在微生物实验室中一个应用前景是质量保证和被动质量监控,具体而言,IAAI可以促进各种实验室检测的质量保证,包括PCR,侧向层析测定和细菌平板培养。我们期望IAAI能够扩大质量保证的可能性,超越目前细菌学和显微镜的应用领域,临床微生物专家应该寻找机会使用IAAI来提高质量和效率。正在开始构想可用于IAAI ISD设备临床验证的标准化方法,在考虑开发和/或应用IAAI工具作为ISD时,临床微生物专家应了解已经尝试过临床验证的其他人确定的最佳方案(图1)和当前的美国食品药品协会指南,读者可以参考Mathison、Wang和Alouani的研究,以获得有关如何进行IAAI验证的良好示例。
使用IAAI可以提高临床微生物检测的效率和质量,可以辅助增强人工的操作,但不能取代人类的专业知识。未来的研究应该继续描述IAAI ISD设备的开发和临床验证的成功和失败,从而共同学习如何在临床微生物学中使用IAAI,以最大限度地发挥其所能提供的益处。
本文编译节选自:《J Clin Microbiol》.2023 Sep; 61(9): e02336-21.