实验室常规质控中的西格玛度量与风险管理评估
【摘要】目的 六西格玛方法以全面质量管理为基础,致力于改进工作。它以西格玛(σ)度量的形式应用于临床实验室的分析流程中,为基于风险的管理提供证据。方法 采用智利18家临床实验室的数据进行了一项描述性研究。他们日常工作中使用的性能和质量规范信息来自UNITY(一个内部质量比较程序)。结果 共收集到3,461项西格玛评估,其中大部分来自半年一次的质控。总体分布中位数为5.5,正不对称性与其他研究相似。51.2%的质量规范基于CLIA,30.2%基于生物变异,10.7%来自其他外部质量评估项目。不同规范来源的σ中位数之间存在显著差异(P<0.05)。结论 在研究的系列中,评估的55.5% σ可以使用简单规则和最少质控物来实施基于风险的质量控制系统,19.6%的σ主要需要改进精密度。质量规范的多样性揭示了该规范选择中缺乏标准化。
【关键词】质量控制;实验室管理;实验室方法和工具
【研究声明】本研究显示了智利几家临床实验室在不同分析流程中获得的西格玛度量值,并根据最新建议选择的质量目标对其性能进行了评估。研究还显示了其质量保证部分的操作方法,同时评估了在质量控制中实施风险概念的可行性。
自20世纪80年代中期由摩托罗拉公司引入六西格玛(6σ)模式以来,其已成为一种全球性的管理战略,重点是减少流程的变异,并在理想情况下彻底消除生产缺陷。流程中的变异会导致产品不尽如人意,并因材料和人力资源的损失而增加成本。6σ核心方法是基于全面质量管理的改进,既注重解决问题,也注重减少不必要的程序。它包含量化DPM或DPMO的统计工具,使我们能够客观地评估生产性能并比较不同的流程。6σ已在世界各地的临床实验室成功实施,以确定分析前、分析后和服务流程中的改进机会。6σ在分析流程中的具体应用,最早由James O. Westgard根据σ度量概念提出,该概念基于标准差、偏倚和质量规范(TEa)之间的关系。多项σ度量的应用程序研究已公开发表,主要针对临床实验室内多个专业领域的程序以及商业分析平台的研究,揭示了σ值对分析程序质量的影响及其对所采用质量规范的依赖性。
近年来,风险分析已被引入临床实验室的全流程。CLSI C24 Ed.4等文件建议,必须对分析质量控制进行规划,以防止出现可能危及患者健康的错误结果。风险管理模式在质量控制中的应用揭示了允许授权或拒绝分析运行的自统计特征或控制规则集合的相关性,指出了误拒绝的实验室风险(α或I类错误)以及误差检出率中的患者风险(β或II类错误)。通过建立临界系统误差与σ度量值之间的关系,James O. Westgard提出了新的幂函数图,允许在风险标准下选择最优质控规则或质控规则组合。当假失控率(pfr)<5%,误差检出率(ped)>90% 时,质控规则就被认为适当。对于所选择的质控规则,表中列出了每次分析运行需要考虑的质控物的最小量。只有σ值超过4.65时,使用2个质控物的单一规则或组合才有可能保持足够的分析风险水平。对于较小的值,所需的质控物数量增加到4,对于σ值接近或低于3,可能需要多达8个质控物。
该模型的接受得到了σ度量在临床实验室特定技术中的几个应用程序的支持,这些应用程序评估了常规中选定的质量标准或分析程序组,其中涉及提出一组最优规则,每个规则都需要可变数量的质控规则。基于这些概念,这项工作根据几个智利临床实验室的日常工作结果、指定的质量规范和关于既定不精密度和准确度要求的性能参数,分析并展示了从几个智利临床实验室获得的各种分析程序的σ度量值。这项工作旨在了解其质量保证部分中的操作实践,同时评估在质量控制中实施风险概念的可行性。
一、材料与方法
根据从智利18家临床实验室(8家公立实验室和10家私立实验室)收集到的σ值,进行了描述性研究。这些数据属于实验室的常规分析数据,由实验室自愿提供。收集的数据包括:仪器、分析物、控制水平、CV、偏倚%和TEa质量规范选择,以及公立或私人实验室的状况。我们根据GNC(位于Andalucía,西班牙)的建议,根据专业分类对每种分析物进行了鉴定和分组,GNC本身是基于IUPAC-IFCC建立的NPU标准,这一分类共确定了14个专业领域。
表1. 按实验室类型、诊断领域和质量规范来源划分的σ性能,2018-2020年智利实验室
注:a P=0.190(Mann-Whitney U检验),b P<0.01(Kruskal-Wallis 检验)
数据通过UNITY(一个内部质控比对平台)获取。共收集了141组数据,组成各异:其中包括124组半年数据、11组全年数据、1组季度数据和5组月度数据,这些数据在2018年至2020年期间收集,总计进行了3461次σ评估。部分分析排除了25个负值和122个超过25的σ值。分析σ值(σ度量)通过以下公式估算得出:σ=[总允许误差(TEa)(%)-|偏倚|(bias)(%)]/变异系数(CV)(%),其中,CV(%)表示分析程序的变异,偏倚则表示实验室平均值与内部质控比较对等组平均值之间的差异,均适用于所考虑的时间跨度。通过用户提供数据随机生成的标识符确保数据的机密性,该标识符后续用于实验室匿名细分分析。为分析σ性能,采用了Varela和Pacheco提出的一种程序分类算法。该方法以图形方式将偏倚整合为TEa的百分比及其相应的σ。
质量目标指数(QGI)用来评估分析程序性能不佳的主要原因,其计算公式为QGI=丨偏倚丨/1.5CV,该公式适用于低σ分析物。当QGI<0.8时,表明不精密度是最重要的误差来源。QGI>1.2表示准确度要改进,0.8>QGI>1.2表示准确度和不精密度要改进。数据库使用Microsoft Excel创建,随后使用JASP®进行处理和分析。定性变量以简单的频率和百分比表示,同时考虑到非参数分布,定量变量以中位数和百分位数表示。在推理分析中,使用Mann-Whitney U检验比较组间中位数,使用Kruskal-Wallis检验比较>2组的组间中位数,接受95%显著性水平(α= 0.05)有效。
二、结果
共有18个智利实验室提交了3461份σ资格证书。图1显示了σ的分布情况,中位数为5.5(2.5th 0.96-97.5th 17.8)。共有146份报告被剔除(25份为负σ,121份σ超过25)。
注:常规样本(3315份报告),2018-2020年智利实验室
图1. σ水平的分布
关于报告的质量规范,实验室参考了19种不同的形式进行选择。CLIA(CLIA,CLIA 2019-51.2% n=1385);生物变异(BV):理想规范(DES)、最佳规范(OPT)、最低规范(MIN)或组合:BVDES 偏倚%+BVOPT 不精密度、BVDES 偏倚%+BVMIN 不精密度、BVMIN 偏倚%+BVOPT 不精密度,合计相当于30.9%(n=873)。从EQAP计划获得的要求:RCPA、RiliBÄK、CFX、IQMH、SEKK、NYS、WELSH、比利时IPH,合计占10.7%(n=297),而用户定义的其他要求占7.2%(n=197)(图2)。图3显示了所研究的最相关分析领域的汇总分析结果,除止血-纤溶和肿瘤标志物领域的中位数约为16%外,其他领域的中位数均约为20%。表1列出了实验室类型、专业领域和分析质量规范的σ性能。除专业领域和选择的质量规范来源之间的差异外,不同类型的实验室之间没有统计上的相关差异。
图2. 质量规范的来源,2018-2020年智利实验室
图3. ETa分布规范(%)(按分析区域),2018-2020年智利实验室
在图4中显示了从3个公立实验室和10个私立实验室获得的2881个数据组的性能水平,这些数据组对应于由Varela和Pacheco提出的算法排列的整个数据集的 83.2%,显示%ES/ETa-σ。
图4. 2018-2020年智利13家实验室2881个值的ES/ETa与σ百分比
三、讨论
σ度量是一种有用的工具,用于监控质量指标,评估建立质量控制规则的分析流程的质量,描述外部质量评价参与者的分析性能,并帮助制造商选择产品的必备条件。评估了2018年-2020年间智利18个公立和私立实验室的常规内部质量控制程序获得的σ值,以确定其全球趋势并确定实施基于风险概念的质量控制模型的可行性。σ值的总体分布(图1)显示介于0-25之间,中位数为5.5,呈正不对称分布。在这一步骤中,有121个值因超过25而被剔除,最高为899(75%的尿化学分析物),另外25个负值也未考虑在内。这是因为观察到的偏倚大大超过了客观的ETa值,表明其性能不佳。被剔除的数值属于8个实验室,其中67%的数值属于一个实验室,这可能表明这些实验室在执行程序或选择客观ETa的方法上存在特殊行为。筛选后,其余σ值似乎与已发表的其他评估结果无差异,临床化学和免疫化学的范围为2.59-41.69。与从验证过程中获得的其他已发表系列的数据相比,本研究的数据具有特殊的相关性,因为它们是在常规条件下从内部质量控制过程的比较中获得的,主要是每两年计算一次,这确保了分析过程的稳定性。在2014年米兰会议上,提出了3种选择质量规范的模式:(a)基于与临床结果相关的分析性能;(b)基于BV;(c)基于最新技术水平。
在本研究中,18家实验室以19种不同的形式提交了分析质量规范。50%以上的情况下,质量规范是根据CLIA要求选择的,这与第三个模型相对应,其次是由BV 以最佳、理想或最低标准的形式或准确度和不精密度的不同组合或从不同的外部质量评估计划中选取的形式(图2)。这种选择规范的行为与其他系列调查的结果不同,如Morancho等人发表的调查,47%的受访者(n=340)声明使用BV,而只有3%的受访者使用CLIA等监管要求。另一方面,一项关于在全球范围内使用规范的调查显示,使用外部质量评估计划的规范最受欢迎,其次是制造商规范、BV和CLIA。这些调查结果表明,与过去相比目前有更多的规范,这种激增可能意味着一种风险,即所评估的性能质量缺乏一致性和协调性。σ度量与靶标ETa选择之间的关系显而易见,上限越高,越有可能获得更好的σ。如果不根据与临床需求相关联的预期目的进行调整,就会产生虚假的安全感,并高估分析程序的质量。例如,在EFLM和EuBIVAS中,可用的靶标非常小,但是,较小的σ度量可能意味着实验室和制造商的工作更困难,结果不一定更可靠。根据现有类型中不同的质量规范进行性能评估会导致σ值的显著变化,正如数据所显示的那样,不同规范来源的σ中值之间存在显著差异(表1),而且当使用CLIA和BV规范或其他基于EQAP规范获得的σ对同一程序的性能进行对比时,其他系列的数据也证明了这一点。另一方面,通过BV规范得到的σ中位数大大超过了使用CLIA得到的中位数。这一显著差异(P<0.01)与其他作者的发现不一致,对于相同的性能参数,使用CLIA规范时获得的σ比使用BV获得的σ更大。这可以反映出,BV并不总是必须比监管规范更严格。
在评估专业领域的质量规范的中位数时(见图3),在其中5个领域中观察到相似,值在19-20之间,但在上述5个领域中的4个,相当程度的离散变得明显,超过40%。一项更详细的分析显示了与27种不同分析物的σ值相关的149项规范,σ值在40%-85%之间。其中65%的数值是通过BV要求获得的,使用不同的准确度-不精密度组合,涉及6个专业领域。12.5%在5个专业领域对应CLIA规范。UNITY软件所允许的不精密度和准确度的最佳、理想或最低的组合产生了广泛的质量规范,应根据检查的预期目的进行评估。图4显示了Varela和Pacheco提出的模型,该模型有助于选择分析质量规范,补充了使用Westgard的σ度量标准来评估不精密度和准确度的图形机制。该模型建立了关于质量规范(ETa)的偏倚百分比(ES%)和σ值之间的关系,允许建立4个不同接受水平的分类组。
A组和B组的分析物性能可接受,由10家实验室提供,这些分析物属于常规生物化学(血液)专业领域,分别为51%和54%,其次是血液激素,分别为20%和18%。A组和B组的分析物比例(56.2%)与Varela和Pacheco的研究报告(56.4%)一致。尽管图表中没有显示,但σ值>25(n=118)的数据也包括在内,其中大部分位于B组(n=90)。观察到ES%/ETa的中位数时,这些组数据中σ中位数为6、低变异系数及系统误差减少。在该组中,可以直接应用基于风险的质量控制程序,减少质控物的数量和简单的控制规则,很有可能检测到错误并减少误拒绝,如Bayat等人提出的模型。C组(41.1%)的数据被定性为性能不稳定,σ中位数为 3.4(范围为0-5.15),包括13个专业领域,其质量规范来自CLIA和BV(67%),13家实验室中有12家提供了数据。这些数据必须仔细分析,尤其是σ值在0-3.99之间的分析物(68%),急需改进,而σ值在4-5.15之间的分析物(32%),改进难度较小。D组包括性能不足的分析物或质量规格选择不当(过于严格),尽管在图中未显示,但包含25个负σ评级,所有这些都归为此类。其中4.0%是σ中位数为0.7和高偏倚成分(对应于ETa的50%-80%的值,中位数为69.1)的次要组。
在C组和D组中,587项分析物的σ值在-10.80~2.99之间,相当于该组的46.5%和总数据的20.3%。这些分析物需要紧急改进,必须使用Westgard的所有规则进行控制,并且每天的质控数量和运行频率必须增加。本组检出的项目依次为血液激素(34.1%)、常规血生化(23.3%)、血液药物(12.8%)和常规尿生化(10.3%)。对σ值在0-2.99之间的QGI指标(n=536)进行的评估显示,主要(77.3%)表现为不精密度需要改进。11%的研究只出现了准确度要改进,而其余的研究同时出现了不精密度和准确度要改进(表2)。低σ中不精密度的相关性与其他文献的发现一致,需要紧急应用解决问题的工具,如根本原因分析。
表2. 536项σ值在0-2.99之间的QGI指标,智利实验室2018-2020
注:*QGI(质量目标指数)=偏倚%/1.5 CV
现有的质量规范有多种来源,这说明有必要根据分析过程中预期结果质量的实现情况,确定协调选择质量规范的机制。有必要考虑到,目前的结论是利用源自实验室间内部对照比对计划的偏倚数据获得的,而不是按照建议的实验室间比对计划获得的。最后,在55.5%评估σ[对应于常规生化(51.1%)和激素(19.7%)中的87种不同分析物]中,使用简单规则和最少的质控物实施基于风险的质量控制系统是可行的;对于12.0%的评估,可以在一次运行中使用简单的12.5s规则或针对2种质控物的13s/22s/R4s简化设置。对于其余的999项评估(36.5%),只能采用Westgard的所有规则,每次运行4或8个对照组。
编译自:The Journal of Applied Laboratory Medicine, Volume 7, Issue 2, March 2022.