应用Sigma等级,在全球范围内评估分析性能 ——通过室间质量评价(EQA)和能力验证(PT)计划, 对不同厂商、仪器及方法进行比较分析

作者:Sten A. Westgard
2021-12-16

1. 简介


室间质量评价(EQA),也称作能力验证(PT),被认为是一个实验室质量体系必须包含的部分。ISO 15189要求执行EQA。美国的CLIA法规要求所有未豁免的管制和非管制的检测项目进行PT。EQA/PT主要是对实验室的质量进行外部核查,尤其是对方法偏移和准确度的评估。

较新的评估方法为:Sigma度量。6 Sigma度量整合了偏移、不精密度和允许总误差,并将其转换成对分析性能的总体评估。6 Sigma的概念被引入工业及医疗领域已经数十年,已经被广泛接受和普遍理解,可应用于任何过程。达到6 Sigma水平的任何试验或过程几乎是没有缺陷的,3 Sigma以下的试验或过程对常规操作来说是不稳定的。6 Sigma检测方法所需的QC数量远远低于3 Sigma及以下方法所需的QC数量,Sigma度量可以整合到实验室的风险管理中。

分析的Sigma度量(analytical Sigma-metric)已用于化学、酶、免疫、POCT和高度标准化的方法比如HbA1c。Sigma度量是AACB(澳大利亚临床生化学家协会)、CLSI C24以及实现HbA1c标准化工作组(TF-HbA1c)推荐的分析评估模型。

虽然大多数国家几乎都要求实验室参加EQA/PT计划,但是EQA/PT实践并没有标准化。质量规范(按照ISO计量学,称为分析性能规范)根据计划和国家而不同。使用不具备互换性的样本极为常见,但是虽然EQA/PT“能够对单个参与者提供有用的信息,但是并不能提高一致化和实验室间结果一致性”。1996年,Ricos等人发现常规检测项目的化学性能规范的变异度达到200%之多。2005年,Friedecky等人再次确认这些性能规范差异持续存在而且一致化的进程缓慢。此外,近期Graham Jones注意到EQA/PT计划的性能规范差异在一定程度上是因为采用不同的来源。对失败进行重罚,比如取消资助或关闭实验室的计划,会定一个更宽大的性能规范(也就是CLIA和德国的Rilibak)。对于具有教育意义的EQA/PT计划(即,不会对失败加以重罚)通常对性能规范的要求更严格。

当前的EQA/PT计划使实验室陷入两难:你的EQA成功取决于你的实验室所处的国家吗?因为德国和美国的性能规范更宽,那么这些国家的方法性能会不会更差?方法和实验室性能的可接受性是否也取决于实验室所参与的特定EQA/PT计划呢?参与欧洲计划的实验室会不会比参与美国调查的实验室经历更多EQA/PT失败呢?一个方法在相同性能下在一个国家可以接受,而在另一个国家则不能接受似乎不合逻辑。

除了这些挑战,近期收集的世界各地EQA/PT计划数据是实验室的独特资源。如果EQA/PT计划的数据能够进行标准化比较,那么这些结果将提供关于实验室、方法和仪器性能的全球视角。如果这些大的数据集被开采,“大数据”分析不仅能够揭露现实的性能规范,还能鉴别具有最佳性能的方法、仪器和厂商。就像Google能够筛选数以百万计的链接发现与搜索词最匹配的词条一样,利用多个计划的EQA/PT数据能够帮助实验室找到最适合其临床需求的方法。


2. 材料和方法


数据来自于5个不同EQA/PT计划,分别用A,B,C,D,E代表。A是一个全球参与度非常高的美国EQA计划;B是美国国内参与度较高的EQA计划;C是来自加拿大EQA计划;D是英国EQA计划;E是亚洲参与度高的澳大利亚EQA计划。

分析每个EQA/PT计划报告各一份,根据EQA/PT计划不同包含20-30个生化检测:白蛋白(ALB),碱性磷酸酶(ALP),丙氨酸氨基转移酶(ALT),淀粉酶(AMY),天门冬氨酸氨基转移酶(AST),直接胆红素(Dbil),总胆红素(Tbil),钙(Ca),氯(Cl),胆固醇(CHO),CO2,肌酸激酶(CK),肌酐(Crea),叶酸,谷氨酰转肽酶(GGT),葡萄糖(GLU),高密度脂蛋白胆固醇(HDL),铁(Fe),乳酸,乳酸脱氢酶(LDH),低密度脂蛋白胆固醇(LDL),脂肪酶(Lps),镁(Mg),磷(P),钾(K),转铁蛋白,总蛋白(TP),钠(Na),甘油三酯(TG),尿酸(UA)和尿素(UN)。对于该研究,我们只关注10个以上实验室参与的主要诊断厂商和仪器组(表1)。通常认为10个以下实验室参与的组别不足以提供可靠的结果。

根据仪器组SD确定不精密度,仪器组平均值计算CVs。如可以,依据所有方法的集中平均值确定偏移,或者在适当时依据对等组方法平均值确定偏移。但是,我们会发现,最终偏移的计算与该研究无关。

分析性能规范主要采用CAP/CLIA性能规范,对于CLIA规范中不包含的检测项目,则使用生物学变异(即Ricos目标) 的允许总误差规范中的期望值,例如GGT、Dbil等检测项目(表2)。

最后,估算每个仪器组和标本的分析Sigma度量,按照每个EQA/PT计划的平均Sigma度量进行汇总。Sigma度量计算的详细信息见下文。一台仪器支持多种方法原理时,使用最大数量的仪器和/或最好的Sigma度量。

虽然上文列出了29个生化检测项目,但是并不是每个EQA/PT计划都包含这29个项目,必要时单位可转换为国际单位。


表1. 每个EQA/PT计划所包含的仪器组


表1.png


表2. EQA/PT评估所用的分析性能规范


表2.png


3. 不精密度和偏移分析


至于不精密度,同一调查内和不同调查间的一致性明显。不同EQA/PT计划之间的仪器组不精密度具有良好的一致性。印证了无论何地,仪器的性能可以保持稳定,EQA/PT计划的选择也不应该影响仪器性能。

对于偏移,情况正好相反。不同EQA/PT计划之间,偏移估算值差异较大。对于某些仪器,EQA/PT计划选择影响了偏移的可接受性。

Miller等人最近指出没有可溯源和可互换样本的EQA/PT计划“不会提供有关不同测量程序之间患者样本结果关系的有意义信息”。鉴于EQA/PT计划中仪器组偏移的多变性,在不包括偏移的情况下估计Sigma度量更可靠。


4. Sigma度量值:将不精密度置于性能规范的背景之下


虽然我们可以分别看偏移和不精密度的结果,但是更需要对性能进行总体评估,可兼顾单个检测的不精密度和偏移。分析过程的允许总误差(TEa)代表为了提供临床有用的结果需要达到的性能规范或目标。分析Sigma度量表示该方法产生不会超过允许总误差的测试结果的能力。

分析Sigma度量的计算方式如下:

Sigma度量=(TEa-Bias)/CV (所有指标用百分比表示)

虽然在Sigma度量公式中纳入偏移的值是最完美的,但是由于本研究,EQA/PT集中平均值的多变性,所以在Sigma度量公式中剔除了偏倚。也就是说,Sigma度量值可以简单地用允许总误差除以仪器组不精密度来计算。在某些情况下,这会获得比较乐观的Sigma值。实际上,对于实验室而言,都会使用各自的SD和CV以及偏移来计算其真实Sigma度量值。   


5. EQA/PT计划的仪器性能总结


利用Sigma度量,能够估计出性能在5 Sigma及以上的检测项目数量。对于这些试验,传统的QC实践实际上“过度控制”了方法,产生了更多的假性拒绝,引起临床上不必要的异常值和警告。使用EQA/PT数据,可以估算出每个仪器有多少百分比的检测项目性能在5 Sigma以上,并使实验室有机会重新设计和优化QC。

可以了解每个EQA/PT计划的仪器性能,揭示性能在5 Sigma及以上的检测项目百分比,如图1所示。

同时,也可以汇总所有EQA/PT计划的情况,如图2所示。

就像Sigma度量能够对不同仪器的多个检测项目进行总体评估一样,也可以使用EQA/PT数据专注于个别检测项目的Sigma性能,如图3所示。


 6. 讨论


对多个EQA/PT计划的数据进行分析,结果显示不同厂商、仪器型号和方法之间性能差异显著。虽然,不同计划之间具有变异性,我们不期望每个报告都呈现完美的Sigma度量。然而,仪器和检测项目方面的发现具有一致性,每个仪器型号性能大于5 Sigma的检测项目比例相似。而且对于每个检测项目而言,不同的EQA/PT计划下的Sigma度量结果一致。

从仪器来看, Ortho Clinical Diagostics仪器,性能大于5 Sigma的检测项目中位数是53.85%,Roche是62.5%,Beckman Coulter是63.58%,Siemens是64.17%,而Abbott是78.02%。不同厂商仪器间的差距高达25%。这证实了厂商的不可互换以及检测仪器并非普通的商品。在检测项目来看,这种差异更为突出。例如,对于白蛋白的平均Sigma度量而言,Beckman Coulter可达到5 Sigma,而其它厂商均在4 Sigma左右(Abbott 4.8和Siemens 4.55,然后是Roche 3.57和Ortho Clinical Diagostics 3.08-检测质量的差异达到2-Sigma)。钠检测也存在方法差异,Abbott 4.05 Sigma,Beckman Coulter 2.97 Sigma,Roche 2.79 Sigma,Siemens 2.96 Sigma,Ortho Clinical Diagostics 2.53 Sigma)。最后,葡萄糖的平均Sigma表现除Abbott以外,其他厂商基本持平,Abbott的性能表现高于6 Sigma,Ortho Clinical Diagostics 4.63 Sigma,Roche 4.56 Sigma,Siemens 4.33 Sigma,Beckman Coulter 4.18 Sigma。

考虑到以上的Sigma值是由多家实验室和多个计划估算得来,不能保证Sigma度量结果的每个小数位都有意义。在估计值之间存在整数的Sigma差异时(例如,3.5和4.4可能差异不大,但是3.1和4.2就可能反映出两个检测的真正性能差异),最好考虑方法之间、型号之间和厂商之间的显著差异。应用Sigma度量与获得的整数非常相符。6 Sigma以上的检测项目,将推荐相同的QC设计。5 Sigma的检测为性能优良,多半使用相同的QC推荐。

从Sigma度量值的平均值和中位数来看,评价每个大型诊断厂商的各种仪器型号,仍然能发现不同仪器型号间的显著差异。例如,Roche cobas流水线随着型号变大性能不断完善(例如c111大于5 Sigma的检测项目比例是23.1%-37.5%,c501是52%-70%,c701是65%-76%)。这些差异不仅出现在仪器方面,在检测项目方面也一样。例如,Olympus AU系列的胆固醇检测性能为4.1 Sigma,而UniCel DxC为5.0 Sigma。对于氯的检测,在Siemens ADVIA上是4.47 Sigma,在Dimension Vista上是2.7 Sigma。换句话说,假设同一个诊断厂商的所有仪器质量相同是完全不准确的。


雅培-图1.jpg

图1. EQA/PT计划B中,共27个生化检测项目,其中性能>5Sigma的百分比


雅培-图2.jpg

图2. 根据5个EQA/PT计划,性能>5 Sigma的生化检测项目的百分比。不同颜色的方框代表不同厂商检测项目>5 Sigma的平均百分比,方框两边竖线代表不同仪器、型号和EQA计划的检测项目>5 Sigma的百分比。


雅培-图3.jpg

图3. 5个EQA/PT计划的葡萄糖检测的Sigma度量。


7. 局限性


由于每组Sigma度量采用单一的数据报告,所以本研究只能展示性能的概况,由于时间太短不足以对仪器进行更恰当评估。如果单一数据报告内某个标本的都是低浓度水平时,与标本都是高浓度水平或覆盖高,低浓度水平的另一个计划相比,可能具有更低的Sigma度量值。另外,与长期的多个报告相比,任何仪器的短期问题对研究的影响都会被放大。理想情况是,包括EQA/PT计划数据的多个报告的长期研究,将能更深入地了解仪器性能。

每个仪器组的参与数量可能会对Sigma度量值产生影响。虽然每个仪器组设定了至少10个参与实验室的下限,但是仪器组的规模仍然差异很大。例如钠,仪器组参与数低至10台,高至857台。然而,将Sigma度量与组大小相比时,没有关联。钠的Sigma度量与组大小的相关性是0.0,线性回归斜率是0.000。换言之,组大小不会影响Sigma度量值的计算结果。

如前所述,这些EQA/PT计划使用不同的性能规范。尽管统一了性能规范,但是这些可能反映不出每个实验室所在医院的临床需求。临床医生和患者可能需要更好的性能,或相反,能够接受比预期大很多的分析误差。如果采用其它的更严格的性能规范,例如“Ricos目标”,Sigma度量值将变得较小,但是仪器之间的相对差异不会改变。该研究的一个发现是有助于鉴别CLIA目标是否太大,如果所有计划的所有仪器性能都高于6 Sigma,可能提示应该使用更严格的性能规范。

此外,这些Sigma度量值会受到基质效应的影响,因为大多数EQA/PT计划不提供可互换的标本。因此,EQA/PT结果的差异,并不能说明病人标本的情况。这不仅仅是本研究面临的问题,也是EQA/PT计划面临的问题。使用真正可互换的样本是所有计划改进的目标,但是在接下来的几十年内,大多数实验室不可能获得这样的标本。同时,我们无法摆脱当前可用的EQA/PT标本、报告和数据。如果我们不用这些报告来评估相对仪器性能等级,我们对是否有实验室能够找到EQA/PT结果的实际用途表示怀疑。


8. 结论


比较多个EQA/PT计划的结果,是非常有用的“大数据”。以每个仪器为基础,通过分析仪器组的标准差,并在此基础上计算Sigma度量值,使得分析性能质量在EQA/PT计划中有一个共识。

考虑购买新仪器的实验室,可以使用从多个EQA/PT计划获得的所有数据来更深入地了解候选仪器的性能的优势和劣势。在价格为主要的驱动因素的当下,实验室应该注意不要“因小失大”。仪器供应商的最低初始报价可能很诱人,但是如果Sigma度量分析显示设备长期操作将导致明显较低的分析性能,那些最初的节约将会被时间、质控品、校准品、技术服务和在最坏的情况下,报告给临床医生和患者的缺陷结果等造成的附加费用所淹没。

仪器采购者应该意识到,使用EQA/PT数据,尤其是多个来源的,能够使他们找到市场最佳性能的仪器。

EQA/PT计划可以在其不精密度结果的可比性上振作起来。尽管这些组织在格式、材料和统计学上产生了差异,它们仍然提供了仪器性能的客观评估。但是,该研究明确显示计划之间仍存在变异性,尤其是在偏移测定方面。标准化和一致化努力必须继续,这样EQA/PT计划才不会人为地突出或掩盖个别实验室、仪器或厂商的性能。


 节选自:Clinical Biochemistry(2016)

版权归其所有,仅供内部参考

参考文献:略