应用Sigma等级，在全球范围内评估分析性能 ——通过室间质量评价（EQA）和能力验证（PT）计划，对不同厂商、仪器及方法进行比较分析

作者：Sten A. Westgard 11965

2021-12-16

1. 简介

室间质量评价（EQA），也称作能力验证（PT），被认为是一个实验室质量体系必须包含的部分。ISO 15189要求执行EQA。美国的CLIA法规要求所有未豁免的管制和非管制的检测项目进行PT。EQA/PT主要是对实验室的质量进行外部核查，尤其是对方法偏移和准确度的评估。

较新的评估方法为：Sigma度量。6 Sigma度量整合了偏移、不精密度和允许总误差，并将其转换成对分析性能的总体评估。6 Sigma的概念被引入工业及医疗领域已经数十年，已经被广泛接受和普遍理解，可应用于任何过程。达到6 Sigma水平的任何试验或过程几乎是没有缺陷的，3 Sigma以下的试验或过程对常规操作来说是不稳定的。6 Sigma检测方法所需的QC数量远远低于3 Sigma及以下方法所需的QC数量，Sigma度量可以整合到实验室的风险管理中。

分析的Sigma度量（analytical Sigma-metric）已用于化学、酶、免疫、POCT和高度标准化的方法比如HbA1c。Sigma度量是AACB（澳大利亚临床生化学家协会）、CLSI C24以及实现HbA1c标准化工作组（TF-HbA1c）推荐的分析评估模型。

虽然大多数国家几乎都要求实验室参加EQA/PT计划，但是EQA/PT实践并没有标准化。质量规范（按照ISO计量学，称为分析性能规范）根据计划和国家而不同。使用不具备互换性的样本极为常见，但是虽然EQA/PT“能够对单个参与者提供有用的信息，但是并不能提高一致化和实验室间结果一致性”。1996年，Ricos等人发现常规检测项目的化学性能规范的变异度达到200%之多。2005年，Friedecky等人再次确认这些性能规范差异持续存在而且一致化的进程缓慢。此外，近期Graham Jones注意到EQA/PT计划的性能规范差异在一定程度上是因为采用不同的来源。对失败进行重罚，比如取消资助或关闭实验室的计划，会定一个更宽大的性能规范（也就是CLIA和德国的Rilibak）。对于具有教育意义的EQA/PT计划（即，不会对失败加以重罚）通常对性能规范的要求更严格。

当前的EQA/PT计划使实验室陷入两难：你的EQA成功取决于你的实验室所处的国家吗？因为德国和美国的性能规范更宽，那么这些国家的方法性能会不会更差？方法和实验室性能的可接受性是否也取决于实验室所参与的特定EQA/PT计划呢？参与欧洲计划的实验室会不会比参与美国调查的实验室经历更多EQA/PT失败呢？一个方法在相同性能下在一个国家可以接受，而在另一个国家则不能接受似乎不合逻辑。

除了这些挑战，近期收集的世界各地EQA/PT计划数据是实验室的独特资源。如果EQA/PT计划的数据能够进行标准化比较，那么这些结果将提供关于实验室、方法和仪器性能的全球视角。如果这些大的数据集被开采，“大数据”分析不仅能够揭露现实的性能规范，还能鉴别具有最佳性能的方法、仪器和厂商。就像Google能够筛选数以百万计的链接发现与搜索词最匹配的词条一样，利用多个计划的EQA/PT数据能够帮助实验室找到最适合其临床需求的方法。

2. 材料和方法

数据来自于5个不同EQA/PT计划，分别用A,B,C,D,E代表。A是一个全球参与度非常高的美国EQA计划；B是美国国内参与度较高的EQA计划；C是来自加拿大EQA计划；D是英国EQA计划；E是亚洲参与度高的澳大利亚EQA计划。

分析每个EQA/PT计划报告各一份，根据EQA/PT计划不同包含20-30个生化检测：白蛋白（ALB），碱性磷酸酶(ALP)，丙氨酸氨基转移酶(ALT)，淀粉酶(AMY)，天门冬氨酸氨基转移酶（AST），直接胆红素(Dbil)，总胆红素(Tbil)，钙(Ca)，氯(Cl)，胆固醇(CHO)，CO2，肌酸激酶（CK），肌酐（Crea），叶酸，谷氨酰转肽酶（GGT），葡萄糖(GLU)，高密度脂蛋白胆固醇（HDL），铁(Fe)，乳酸，乳酸脱氢酶（LDH），低密度脂蛋白胆固醇（LDL），脂肪酶(Lps)，镁(Mg)，磷(P)，钾(K)，转铁蛋白，总蛋白(TP)，钠(Na)，甘油三酯(TG)，尿酸(UA)和尿素(UN)。对于该研究，我们只关注10个以上实验室参与的主要诊断厂商和仪器组（表1）。通常认为10个以下实验室参与的组别不足以提供可靠的结果。

根据仪器组SD确定不精密度，仪器组平均值计算CVs。如可以，依据所有方法的集中平均值确定偏移，或者在适当时依据对等组方法平均值确定偏移。但是，我们会发现，最终偏移的计算与该研究无关。

分析性能规范主要采用CAP/CLIA性能规范，对于CLIA规范中不包含的检测项目，则使用生物学变异（即Ricos目标）的允许总误差规范中的期望值，例如GGT、Dbil等检测项目（表2）。

最后，估算每个仪器组和标本的分析Sigma度量，按照每个EQA/PT计划的平均Sigma度量进行汇总。Sigma度量计算的详细信息见下文。一台仪器支持多种方法原理时，使用最大数量的仪器和/或最好的Sigma度量。

虽然上文列出了29个生化检测项目，但是并不是每个EQA/PT计划都包含这29个项目，必要时单位可转换为国际单位。

表1. 每个EQA/PT计划所包含的仪器组

表1.png

表2. EQA/PT评估所用的分析性能规范

表2.png

3. 不精密度和偏移分析

至于不精密度，同一调查内和不同调查间的一致性明显。不同EQA/PT计划之间的仪器组不精密度具有良好的一致性。印证了无论何地，仪器的性能可以保持稳定，EQA/PT计划的选择也不应该影响仪器性能。

对于偏移，情况正好相反。不同EQA/PT计划之间，偏移估算值差异较大。对于某些仪器，EQA/PT计划选择影响了偏移的可接受性。

Miller等人最近指出没有可溯源和可互换样本的EQA/PT计划“不会提供有关不同测量程序之间患者样本结果关系的有意义信息”。鉴于EQA/PT计划中仪器组偏移的多变性，在不包括偏移的情况下估计Sigma度量更可靠。

4. Sigma度量值：将不精密度置于性能规范的背景之下

虽然我们可以分别看偏移和不精密度的结果，但是更需要对性能进行总体评估，可兼顾单个检测的不精密度和偏移。分析过程的允许总误差（TEa）代表为了提供临床有用的结果需要达到的性能规范或目标。分析Sigma度量表示该方法产生不会超过允许总误差的测试结果的能力。

分析Sigma度量的计算方式如下：

Sigma度量=（TEa-Bias）/CV （所有指标用百分比表示）

虽然在Sigma度量公式中纳入偏移的值是最完美的，但是由于本研究，EQA/PT集中平均值的多变性，所以在Sigma度量公式中剔除了偏倚。也就是说，Sigma度量值可以简单地用允许总误差除以仪器组不精密度来计算。在某些情况下，这会获得比较乐观的Sigma值。实际上，对于实验室而言，都会使用各自的SD和CV以及偏移来计算其真实Sigma度量值。

5. EQA/PT计划的仪器性能总结

利用Sigma度量，能够估计出性能在5 Sigma及以上的检测项目数量。对于这些试验，传统的QC实践实际上“过度控制”了方法，产生了更多的假性拒绝，引起临床上不必要的异常值和警告。使用EQA/PT数据，可以估算出每个仪器有多少百分比的检测项目性能在5 Sigma以上，并使实验室有机会重新设计和优化QC。

可以了解每个EQA/PT计划的仪器性能，揭示性能在5 Sigma及以上的检测项目百分比，如图1所示。

同时，也可以汇总所有EQA/PT计划的情况，如图2所示。

就像Sigma度量能够对不同仪器的多个检测项目进行总体评估一样，也可以使用EQA/PT数据专注于个别检测项目的Sigma性能，如图3所示。

6. 讨论

对多个EQA/PT计划的数据进行分析，结果显示不同厂商、仪器型号和方法之间性能差异显著。虽然，不同计划之间具有变异性，我们不期望每个报告都呈现完美的Sigma度量。然而，仪器和检测项目方面的发现具有一致性，每个仪器型号性能大于5 Sigma的检测项目比例相似。而且对于每个检测项目而言，不同的EQA/PT计划下的Sigma度量结果一致。

从仪器来看， Ortho Clinical Diagostics仪器，性能大于5 Sigma的检测项目中位数是53.85%，Roche是62.5%，Beckman Coulter是63.58%，Siemens是64.17%，而Abbott是78.02%。不同厂商仪器间的差距高达25%。这证实了厂商的不可互换以及检测仪器并非普通的商品。在检测项目来看，这种差异更为突出。例如，对于白蛋白的平均Sigma度量而言，Beckman Coulter可达到5 Sigma，而其它厂商均在4 Sigma左右（Abbott 4.8和Siemens 4.55，然后是Roche 3.57和Ortho Clinical Diagostics 3.08-检测质量的差异达到2-Sigma）。钠检测也存在方法差异，Abbott 4.05 Sigma，Beckman Coulter 2.97 Sigma，Roche 2.79 Sigma，Siemens 2.96 Sigma，Ortho Clinical Diagostics 2.53 Sigma）。最后，葡萄糖的平均Sigma表现除Abbott以外，其他厂商基本持平，Abbott的性能表现高于6 Sigma，Ortho Clinical Diagostics 4.63 Sigma，Roche 4.56 Sigma，Siemens 4.33 Sigma，Beckman Coulter 4.18 Sigma。

考虑到以上的Sigma值是由多家实验室和多个计划估算得来，不能保证Sigma度量结果的每个小数位都有意义。在估计值之间存在整数的Sigma差异时（例如，3.5和4.4可能差异不大，但是3.1和4.2就可能反映出两个检测的真正性能差异），最好考虑方法之间、型号之间和厂商之间的显著差异。应用Sigma度量与获得的整数非常相符。6 Sigma以上的检测项目，将推荐相同的QC设计。5 Sigma的检测为性能优良，多半使用相同的QC推荐。

从Sigma度量值的平均值和中位数来看，评价每个大型诊断厂商的各种仪器型号，仍然能发现不同仪器型号间的显著差异。例如，Roche cobas流水线随着型号变大性能不断完善（例如c111大于5 Sigma的检测项目比例是23.1%-37.5%，c501是52%-70%，c701是65%-76%）。这些差异不仅出现在仪器方面，在检测项目方面也一样。例如，Olympus AU系列的胆固醇检测性能为4.1 Sigma，而UniCel DxC为5.0 Sigma。对于氯的检测，在Siemens ADVIA上是4.47 Sigma，在Dimension Vista上是2.7 Sigma。换句话说，假设同一个诊断厂商的所有仪器质量相同是完全不准确的。

雅培-图1.jpg

图1. EQA/PT计划B中，共27个生化检测项目，其中性能>5Sigma的百分比

雅培-图2.jpg

图2. 根据5个EQA/PT计划，性能>5 Sigma的生化检测项目的百分比。不同颜色的方框代表不同厂商检测项目>5 Sigma的平均百分比，方框两边竖线代表不同仪器、型号和EQA计划的检测项目>5 Sigma的百分比。

雅培-图3.jpg

图3. 5个EQA/PT计划的葡萄糖检测的Sigma度量。

7. 局限性

由于每组Sigma度量采用单一的数据报告，所以本研究只能展示性能的概况，由于时间太短不足以对仪器进行更恰当评估。如果单一数据报告内某个标本的都是低浓度水平时，与标本都是高浓度水平或覆盖高，低浓度水平的另一个计划相比，可能具有更低的Sigma度量值。另外，与长期的多个报告相比，任何仪器的短期问题对研究的影响都会被放大。理想情况是，包括EQA/PT计划数据的多个报告的长期研究，将能更深入地了解仪器性能。

每个仪器组的参与数量可能会对Sigma度量值产生影响。虽然每个仪器组设定了至少10个参与实验室的下限，但是仪器组的规模仍然差异很大。例如钠，仪器组参与数低至10台，高至857台。然而，将Sigma度量与组大小相比时，没有关联。钠的Sigma度量与组大小的相关性是0.0，线性回归斜率是0.000。换言之，组大小不会影响Sigma度量值的计算结果。

如前所述，这些EQA/PT计划使用不同的性能规范。尽管统一了性能规范，但是这些可能反映不出每个实验室所在医院的临床需求。临床医生和患者可能需要更好的性能，或相反，能够接受比预期大很多的分析误差。如果采用其它的更严格的性能规范，例如“Ricos目标”，Sigma度量值将变得较小，但是仪器之间的相对差异不会改变。该研究的一个发现是有助于鉴别CLIA目标是否太大，如果所有计划的所有仪器性能都高于6 Sigma，可能提示应该使用更严格的性能规范。

此外，这些Sigma度量值会受到基质效应的影响，因为大多数EQA/PT计划不提供可互换的标本。因此，EQA/PT结果的差异，并不能说明病人标本的情况。这不仅仅是本研究面临的问题，也是EQA/PT计划面临的问题。使用真正可互换的样本是所有计划改进的目标，但是在接下来的几十年内，大多数实验室不可能获得这样的标本。同时，我们无法摆脱当前可用的EQA/PT标本、报告和数据。如果我们不用这些报告来评估相对仪器性能等级，我们对是否有实验室能够找到EQA/PT结果的实际用途表示怀疑。

8. 结论

比较多个EQA/PT计划的结果，是非常有用的“大数据”。以每个仪器为基础，通过分析仪器组的标准差，并在此基础上计算Sigma度量值，使得分析性能质量在EQA/PT计划中有一个共识。

考虑购买新仪器的实验室，可以使用从多个EQA/PT计划获得的所有数据来更深入地了解候选仪器的性能的优势和劣势。在价格为主要的驱动因素的当下，实验室应该注意不要“因小失大”。仪器供应商的最低初始报价可能很诱人，但是如果Sigma度量分析显示设备长期操作将导致明显较低的分析性能，那些最初的节约将会被时间、质控品、校准品、技术服务和在最坏的情况下，报告给临床医生和患者的缺陷结果等造成的附加费用所淹没。

仪器采购者应该意识到，使用EQA/PT数据，尤其是多个来源的，能够使他们找到市场最佳性能的仪器。

EQA/PT计划可以在其不精密度结果的可比性上振作起来。尽管这些组织在格式、材料和统计学上产生了差异，它们仍然提供了仪器性能的客观评估。但是，该研究明确显示计划之间仍存在变异性，尤其是在偏移测定方面。标准化和一致化努力必须继续，这样EQA/PT计划才不会人为地突出或掩盖个别实验室、仪器或厂商的性能。

节选自：Clinical Biochemistry（2016）

版权归其所有，仅供内部参考

参考文献：略

<<返回本专题区

应用Sigma等级，在全球范围内评估分析性能 ——通过室间质量评价（EQA）和能力验证（PT）计划，对不同厂商、仪器及方法进行比较分析

最近内容

下一篇

上一篇

应用Sigma等级，在全球范围内评估分析性能 ——通过室间质量评价（EQA）和能力验证（PT）计划， 对不同厂商、仪器及方法进行比较分析

最近内容

下一篇

上一篇

应用Sigma等级，在全球范围内评估分析性能 ——通过室间质量评价（EQA）和能力验证（PT）计划，对不同厂商、仪器及方法进行比较分析