建立以证据为基础的统计质量控制做法

作者:James O. Westgard, PhD, and Sten A. Westgard, MS
2021-12-16

插图10.jpg

目的:为了制定统计质量控制(SQC)规程,基于检测所需的质量、测量程序的观测精密度和偏移、不同控

制规则的误差检出率和假性拒绝率、及控制检测次数、QC事件的频率(或运行量),建立客观、科学的以证据为基础的程序,将患者的风险降到最低。

方法:使用了一个西格玛度量的批量大小的计算图和功效函数图,去指导对控制规则、控制检测数、以及QC

时间频率(或患者批量大小)的选择。

结果:图示按照西格玛度量批量大小的模式,提供了汇总表格,具有图示表示的Westgard Sigma规则与患者

样品批量大小的关系。

结论:医学实验室可以设计以证据为基础的SQC做法,使用与某检测过程的西格玛度量有关的简单工具,选

择了控制规则、控制检测数、和运行大小(或QC事件的频率)。


该杂志最近报道了一项关于一组学术性医疗中心的统计质量控制(SQC)实践的调查。这21个实验室是“2016年至2017年《美国新闻与世界报道》备受尊敬的学术机构荣誉榜”的杰出代表。这些实验室利用多种仪器系统进行常规化学及免疫化学检测,因此,他们的SQC做法应该能成为当前美国实验室的表率。


报告叙述了各实验室之间SQC事件发生频率的广泛差异,但令人惊讶的是,在大多数实验室中普遍使用2SD控制限。令我们惊讶的原因是,目前已知2SD控制限会导致较高的假性拒绝率。例如,单次控制检测或水平的假性拒绝率为5%;两个控制检测或水平的假性拒绝率为9%;三个控制检测或水平的假性拒绝率为14%。这些假性拒绝表现在实验室检测中同样广泛存在。例如,如果一个单次控制检测在三个同时检测的项目中,有14%的机会,将会观察到三个检测之一被拒绝;在六个不同检测中使用单次控制,则会观察到有26%的机会其中一个检测项目被拒绝;12个检测的为46%;对20个检测则为64%。理论上,使用2SD控制限没有被预期是费用有效的,因为需要从假的失控批中重复检测病人样品。因此,今天的美国实验室在理论和实践间已经脱节了。


报告得出的一项结论是,“有机会建立可以推广到各个机构的以证据为基础的QC方法。”在SQC的语境中,以证据为基础可能被解释为科学客观的SQC做法。这个做法包括预期使用的检测项目所需的质量、检测程序的关键性能特征(精密度和偏移)、以及控制程序的关键性能特征(误差检出和假性拒绝的概率),还包括高运行连续产出过程中发生的QC事件频率。


临床和实验室标准研究院(CLSI)2016年版的C24-Ed4文件《定量检测程序的统计质量控制》(Statistical Quality Control for Quantitative Measurement procedure)为建立目标SQC策略提供了指南。C24-Ed4文件中叙述了,基于检测项目所需的质量、检测程序观测到的精密度和偏移(bias)以及SQC程序(控制规则、控制检测数、SQC事件频率或运行量)的患者危害风险,来选择SQC策略的方法。该方法必须应该满足SQC实践以证据为基础方法的需要。


C24-Ed4指南考虑了用于三个不同的操作模式的SQC:关键控制点(CCP)、批处理过程和患者标本数限定区间连续产出过程。CCP SQC可用于关键事件发生时,如试剂批次的更改、重新校准、和紧急检测。批量SQC包括对同一时间段内,先对一组患者和控制品进行分析,然后再决定是否报告患者的结果。患者标本数限定区间的操作应用在连续产生过程,对控制品定期分析,并使用来自连续SQC事件的控制结果来决定是否报告两个SQC事件之间的患者结果。在进行的调查中,叙述了急诊检测、免疫化学检测和高通量自动化分析仪的SQC,因此在所调查的实验室中都观察到了这三个操作模式。


传统的SQC设计主要关注CCP和批量过程的应用,采用代表不同控制规则和总的控制检测数(N)下的拒绝特征;在功效曲线上加上重要医学系统误差的临界误差图;以及对于规定的质量要求和不同SQC程序下的允许偏差和允许变异系数(CV)的操作规范图。连续产出过程的患者标本数限定区间,要求为SQC事件频率更多的指标,或SQC事件(运行量)之间患者样品(运行大小)。Parvin患者风险模型为最适运行大小做出了指导。C24-Ed4建议了为连续产出分析仪使用患者标本数限定区间(bracketed)的SQC,并叙述了能够确认控制规则、N和运行大小量的基于风险SQC策略的设计或选择原则和理论。


这样一项近乎完美的SQC做法指南显然还没有被备受推崇的学术机构医学实验室采纳。我们认为理论和实践间的这个差距的原因是,理论的复杂性以及缺乏实用工具来帮助实验室应用以证据为基础的方法,特别在评估患者风险上。然而,现在有了更加简单实用的工具。Yago和Alcover最近演示了使用图形工具为单一规则的SQC程序估计Parvin患者风险参数。Bayat将这种方法扩展到涵盖多规则的SQC程序。通过与Bayat一起努力,我们确定了一种称之为西格玛度量运行大小工作计算图(Sigma-metric Run Size nomogram)的图形工具。该工具将检测过程的Sigma质量与控制规则、控制检测数和运行(大小)量联系起来。在本文中我们建议将该工具进一步简化,作为建立以证据为基础的SQC实践的起点。我们将介绍两个新的工具简单表,一个表被称为西格玛度量运行大小工作计算图(Sigma-Metric Run Size Nomogram),另一个为Westgard西格玛规则与运行大小(Westgard Sigma Rules with Run Size)的简单图表。因此,Parvin风险模式所需要的复杂计算,现在已经被简化为简单的表格和图形工具,应该可以在繁忙的实验室服务中用于实践。


材料和方法


Parvin的患者风险模式型是使用Bayat开发的Excel电子表格。运行大小由条件确定,即最大的预期不可靠(或错误的)最后病人检测结果应为1,也即Parvin的MaxE(Nuf)的病人风险等于1.00。也即因在运行批量大小中一个未被检出的误差情况,确定了会发生1个错误检测结果。


图1展现了利用西格玛度量运行计算图(Sigma-Metric Run Nomogram)与功效函数图(Power Function Graph)一起使用。图上左部分显示了批量大小图表(Run Size Nomogram)。图上右部分为功效函数图。底下的表被用来概括临界信息。设计过程的步骤叙述在图下的左侧,以数字和箭头展现。


简言之,由某个检测项目的允许总误差(ATE,TEa)、和该方法观察到的偏移和精密度(步骤1,西格玛值为5.0)计算西格玛度量值(Sigma-Metric)。在批量运行大小图上以垂线绘制出Sigma值(步骤2),去确定批量大小(步骤3),从中选择相应的SQC程序(步骤4)。从功效函数图得到了假拒绝率(Pfr)和误差检出率(Ped)(步骤5)。这个信息与实验室最大工作量和要求的报告区间一起,用来选择相应的开始控制要求(Startup)(步骤6)和监视控制要求(Monitor)(步骤7)的SQC设计,由此SQC的安排可以形成了(步骤8)。注意,SQC安排可为检测过程的初始开始(Startup)利用一个CCP设计,然后应用不同的监视(Monitor)设计为随后的SQC事件,依据要求报告的区间。我们将这个设计称为多步骤SQC。


这个方法学已经在较早的文章中对HbA1c检测进行了详细介绍。它还应用于多种西格玛度量和各种控制规则,以便在新计划的培训手册中评估各种分析性能的影响。这样展现了某个检测过程观察到的Sigma质量,可以和最大预期的批量大小的临界参数、各种控制规则的Pfr和Ped、以及控制检测总数等有关,并且也考虑了实验室的最大工作量和它要求的报告区间,提供了以证据为基础的SQC做法的选择/设计的过程。


结 果


西格玛度量运行大小工作计算图(Sigma-Metric Run Size Nomogram)

A.png

关键SQC参数总结见表1。图1中的表(备选SQC程序、运行量、Pfr和Ped)的前七行信息包含在这个计算图中,其西格玛度量值为5.0;同样,对于6.0、5.5、4.5、4.0和3.5的西格玛度量也提供了类似的信息。左边一列标出了控制规则、控制检测总数(N)和Pfr(括号内显示的假性拒绝概率)。表中的每一行表示一个不同的SQC程序。例如,MR N4(0.03)表示一个13s/22s/R4s/41s的多规则过程,该过程中每次运行总共有4个控制检测值,Pfr为0.03或3.0%。横列显示了检测过程的西格玛质量。SQC过程(行)和西格玛值(列)的交叉点确定了最大运行量(第1行)和期望Ped(误差检出率,第2行)。例如,使用具有5个西格玛过程的MR N4多规则程序的最大允许运行量为1000个或更多的患者样品,检测医学上重要系统误差的概率为1.00。为了进行比较,使用每次运行两个控制品检测值的MR N=2,比如13s/22s/R4s,SQC事件之间允许运行的最大患者样品数为470个。

B.png

对于CCP和批处理操作模式,运行量不是一个相关参数,因此SQC过程的选择应该仔细考虑实现高Ped和尽可能低的Pfr。该信息在西格玛运行计算图中可用,因此该工具也可以为这些操作模式规划SQC。以下是更详细的使用说明:

1. 计算西格玛度量值,并指定实验室检测过程的最大工作量和报告间隔。

2. 对于批处理或CCP SQC事件,检查与计算的西格玛度量相对应的列。确定在检出医学上极其重要系统误差中能达到大于或等于0.90或90%Ped的行的控制规则或N。注意该计算图中所有SQC程序的Pfr应该小于或等于0.05。

3.对于归为一类的连续过程的操作,请检查与计算的西格玛度量相对应的列。确定在检出医学上极其重要系统误差中能达到大于或等于0.90或90% Ped的行的控制规则或N。如果可能,确定等于或大于最大工作量的运行量。

4. 对于后续归为一类的SQC事件,确定能为运行量提供等同或大于期望报告间隔的控制规则和N。

5. 比较可能备选SQC过程的性能来选择最简单的控制规则和最低的N,这些规则对于感兴趣的SQC事件类型具有适当的误差检出和假性拒绝特性。

6. 制定一个SQC计划,确定SQC事件(控制规则,N)、每个QC计划的样品量(基于运行量)、以及待分析的控制品的设计得当。


与运行大小对应的Westgard Sigma规则


一系列西格玛度量结果的总结图示见图2。这个图类似于传统的Westgard规则图,但是底部包括西格玛尺度值。想法是使用一个方法,将观察到的西格玛度量使SQC程序,适合必要的控制规则、N和运行量。例如,一个具有6西格玛质量的检测过程可以使用N=2的13s规则进行控制,并允许最大运行量为1000个患者样品。5西格玛过程可以使用一个13s/22s/R4s多规则程序进行控制,N=2,最大运行量为450个患者样品。一个4西格玛过程可以用一个13s/22s/R4s/41s多规则过程进行控制,N=4,运行量为200个患者样品。对于一个3西格玛过程,SQC最大化是必须的,这里推荐的是一个13s/22s/R4s/41s/6x的多规则程序进行控制,N=6,患者样本运行量较小为45个。此图中的运行量是由计算图中给出的运行量的近似值得到的,作为大致上的定性估计。尽管如此,它们为建立为连续产出分析仪使用患者标本数限定区间(bracketed)的、以证据为基础的SQC实践提供了一个良好的起点。请注意对于Ped和Pfr没有具体的信息,但是当西格玛质量为6.0、5.0、4.0时,该选定的控制规则和N将提供大于或等于0.90的Ped、和小于或等于0.05的Pfr。西格玛质量低于4.0时,采用西格玛运行量计算图或传统SQC设计工具的CCP和批量处理SQC设计可能更好。

111.png


讨 论


使用功效函数图、临界误差图和操作规范图的传统的SQC设计过程在今天仍然适用于确定CCP和批处理过程的控制规则和控制检测总数。对于为连续产出分析仪使用患者标本数限定区间(bracketed)的操作,需要一个额外的参数来表示SQC事件的频率或运行量(连续SQC事件之间的患者样品数量)。Parvin患者风险模型为评估运行量提供了一种定量的方法,但理论和计算的困难,限制了其在医学实验室中的应用。这些应用程序可以通过更简单的工具来简化,比如前面描述的西格玛度量运行量计算图和以及与运行量关联的Westgard 西格玛规则。


在最多出现1个错误患者检测结果的情况下,将连续产出分析仪使用患者标本数限定区间(bracketed)估计为运行量。我们将MaxE(Nuf)定为1与文献中的其他应用是一致的。然而,如果更有效地进行操作或者认为某一特定检测及其应用的风险更高,实验室可以采用更小的运行量。同样,风险较低的检测可能有较大的运行量,例如,当MaxE(Nuf)为2时,运行量加倍,MaxE(Nuf)为3时,运行量再加倍。随着控制规则和N的选择,运行量可以适应不同检测和不同医疗应用的相对风险。


实际运行量不应该扩展到隔天,因为CLIA规则要求每天分析控制品,而且对于某些检测,运行量应该限制在8小时轮班制度的工作时间范围内。对于连续产出分析仪使用患者标本数限定区间的操作,我们建议采用CCP设计,在操作开始时提供高误差检出率(SQC启动的设计),并考虑后续SQC事件所需的报告间隔的更简单的监视设计。可以选择监视设计,使运行量与所需报告间隔内的患者结果数量匹配。调查中的三个实验室报告使用某种类型的多级SQC,也可以使用现有的工具更客观地对这些SQC进行设计。


这些简单工具的应用假定实验室以允许总误差(ATE、TEa)的形式确定了预期使用的检测所需的质量、并记录了测量过程中观察到的精密度和偏移。然后,将这些关键参数组合在一个西格玛度量的计算中:Sigma=(%ATE |%Bias|)/%CV。对21个学术实验室的调查没有揭示预期使用的质量要求是否已经确定,也没有说明这些实验室是否计算了西格玛度量指标。如果想要实现以证据为基础的SQC实践,这些步骤应该成为实验室优先解决的事项。


期望以证据为基础的SQC在高质量的检测过程中能够得到更广泛地应用,尤其是N=2的3SD质控限以及简单的多规则程序,如N=2的13s/22s/R4s规则,这两种程序的假性拒绝率都低于2SD质控限。这就是为什么目前广泛使用的2SD控制限是如此令人费解,特别是因为C24-Ed4指南没有在其拒绝规则列表中包含12s规则。这种情况的一个合理的解释是,通过重复一次控制检测可以降低较高的假性拒绝率,因为实际上拒绝规则变成了22s,而这个规则的假性拒绝率的确很低。然而,为了避免重复、重复、重复等级联的做法,这种做法应该被限制为有一次重复。考虑到一次重复将使患者结果报告出现延迟,我们认为在确定使用2个控制检测的单一SQC事件的控制问题时,13s/22s/R4s的多规则程序更加有用。


调查中的大多数实验室似乎会自动重复任何超出范围的控制。如果重复控制检测在范围内,则报告患者结果。其中一个实验室重复10个患者样品而另外一个实验室重复5个患者样品来验证患者结果的一致性。目前还不清楚重复检测控制品是否为C24-Ed4建议的新鲜配制的控制液。C24-Ed4的建议是:“失控结果可以通过使用新鲜QC物质重复检测来进行验证以排除QC物质受损可能引起的任何问题。QC物质重复检测只能用于排除QC物质本身存在的明显问题。连续重复QC检测以期获得可控结果的做法是不当的。”如果每次重复都使用新鲜的控制液,那么控制品可能会有高昂的额外成本。


虽然很难将目前使用的2SD控制限作为标准实践加以合理化,但存在一个可能的历史的解释。上世纪90年代末,美国病理学家协会在Q-Probe研究中进行了一次SQC实践调查。Q-Probe研究的发现如下:


在参与研究的500多个实验室中,SQC实践大相径庭。


SQC是复杂的,因为至少观察到有15种不同的控制规则在使用中,约40%的实验室使用一个以上的控制规则。SQC是昂贵的,因为在常规化学应用和高达37%的免疫应用中消耗了7%—10%的样品。


该研究的结论是,需要简化实验室实践以提高SQC的依从性。20年后,我们看到SQC的主要实践是完全符合CLIA的要求即分析至少两个水平的控制品。大多数美国实验室只使用简单的2SD控制限,现在每天检测的控制品更少。实际上,在一些大型实验室中,每天只检测2个水平。


最近,Cembrowski和Cervinski也赞同需要简单的SQC实践,但他们指出应该用C24-ED4指南结合Yago和Alcover列线图图形选择以证据为基础的SQC程序。Yago-Alcover列线图已经被Bayat扩展为包含多规则SQC程序,该工作为我们开发西格玛度量运行量计算图以及西格玛度量运行量图表和标注运行量的Westgard 西格玛规则提供了背景。Cembrowski和Cervinski的结论是“计算图加上CLSI C24文件应该有助于我们理解和实现更直接和直观的质量控制系统。”


同样,我们的目的是推进和改进SQC实践,同时保持以证据为基础的实践计划的简单性。正确使用SQC应该是良好实验室实践的目标。选择正确的SQC程序是第一个目标。实施正确的SQC将需要充分考虑计算机信息系统的信息学能力和分析能力,这将带来额外的问题。尽管如此,起点是选择正确的做法(控制规则、控制检测数、SQC事件的频率或运行量),现在可以通过医学实验室能够使用的简单实用工具确定这些做法。


总之,现在应该采用C24-Ed42指南和方法以及使用同行评审文献中可用的简单表格和图形规划工具来开发基于风险的SQC策略。以证据为基础的方法可以从确定预期所需的质量开始实施,并充分考虑到检测过程中观察到的精密度和偏移,以及SQC过程的拒绝特性及其对患者风险的影响。缩小理论和实践之间的差距取决于对实验室人员的培训,包括为从事开发和改进实验室服务工作的高水平从业人员设置优先级。在强调成本控制的精益管理时代,高层管理人员必须发挥领导作用,并强调更好的分析性能和改进SQC实践的重要性,以确保患者的安全。对于专业组织来说,这也是一个从争取合规向追逐卓越的实现跨越的机会。

二维码宣传-小.jpg