队列研究:21个大型学术性医疗中心化学和免疫化学质量控制做法

作者:Dr Kent Lewendrowski
2021-12-16

目的:在美国,联邦法律《临床实验室改进修正案》及其修订版本,明确规定了最低质量控制(QC)标

准。除了满足这一要求的标准,实验室还可以灵活制定各自的全面QC计划。

方法:我们对21个领先学术性医疗中心的临床实验室的化学和免疫化学QC程序进行了调查,评估其化

学和免疫化学检测是否存在标准化的QC实践。

结果:我们观察到各实验室的做法之间存在显著差异和出人意料的相似性,包括QC频率、临界值、分析

的水平数和其他特征。

结论:这种做法差异表明,有机会建立可普遍应用于不同医疗中心的循证QC方法。

关键词:质量控制;Westgard规则;质量控制规则;化学;免疫化学


有用的临床检测,必须既准确(反映受检测分析物的实际浓度)又精密(可再现)。质量控制(简称质控、QC)检测,测定具有已知目标分析物值的QC样品,是全面质量管理过程的重要组成部分。在美国,联邦法律《临床实验室改进修正案》及其修订版本,明确规定了最低可接受QC标准。这些标准通过美国病理学家协会、联合委员会和其他组织的实验室认可过程来实施。标准教科书中描述了设计一个实验室QC计划所涉及的基本理论框架。这些来源通常强调使用功效函数曲线(根据不同QC规则的拒绝概率与系统误差程度绘制),以确定质控的数量和频率以及临界值。此外,这些功效曲线也可以用于计算假阴性(接受了失控QC是有效的)和假阳性(拒绝了实际上是有效的QC)的概率,以及估计鉴别各种程度误差所需的质控检测数。


有些实验室采用各种Westgard多规则图的变体。多规则图使用一系列的质控规则来解读QC数据,以判断一个结果是在控还是失控。质控规则的设计,对随机误差和系统误差均敏感。通常情况下,这些质控规则被用于Levey-Jennings QC分析图,通过绘制质控限来指示与预期QC平均值的不同偏差程度。由于这种从统计学上来看比较稳健的QC方法已存在数十年,所以人们会认为在此期间应该已经制定了关于临床化学(CHEM)和免疫化学(IM)质控的循证最佳实践指南共识。然而,据我们所知,没有任何国家级的病理学/实验室专业组织发布有关QC计划的详细指导声明。从逻辑上来说,人们可能会认为,对可比较患者类型执行相同检测的相似实验室应具有相似的QC方法,由于检测量、仪器和地方实践不同而存在细微差异(variation)。我们调查了21个领先学术性医疗中心的QC方法,评估不同组织之间QC实践的异同。


材料和方法


向21个大型学术性医疗中心(表2)的实验室主任发送了包含6个问题的QC实践调查(表1)。基于《美国新闻&世界报道》2016-2017年排名前20的最佳医院,根据医院规模和全国知名度选择了这些医疗中心。由于地理位置和实验室管理体制不同,NewYork-Presbyterian Cornell和Columbia被视为两个医疗中心,因而参与调查的医疗中心总数从20变成了21。出于分析目的,各实验室的结果是匿名的,因此不会鉴别出各实验室使用的QC计划。为了收集尽可能多的数据,调查问题的措辞严谨、形式开放,还通过电子邮件进一步沟通来澄清任何含糊之处。将各实验室的回答制成表格,来半定量地分析参与医院之间的QC实践。使用的仪器按照供应商分类,QC频率按照QC水平数和每天的事件数分类(如果使用了每个班次,则假设每天三个班次,而且启动和关闭被视为独立的时间点)。QC物质按照制造商(即,由生产检测平台的相同供应商提供)和第三方(由供应商进一步细分)划分。QC规则一般定义为,一个值“在控”时与可接受平均值相差的标准差(SD)数。例如,2-SD规则是指,如果QC值与可接受平均值的差异等于或大于2SD,则认为这个值是“失控的”。我们没有描述这些SD是怎么来的,例如,来源于多次检测一份QC样品以确定SD与制造商指定的SD范围。QC规则的一般格式是,“如果检测X超过了Y SD,则我们采取措施Z。”这些规则经过简化和改进,形成了统一格式的简短而易于理解的对策(这些变化反过来又被实验室用于证实准确度)。最后,移动平均数的使用以是或否代替,而且单独考虑所有叙述性的注解(例如,用于非临床目的、计划在不久的将来实施)并在相关的地方提及。

AQ.png

A2.png

结 果


从所有21个医疗中心收集了结果(100%响应率)。虽然有些回答需要另外沟通来进一步明确答案,但最终所有医疗中心充分回答了所有问题。


不同医疗中心执行常规CHEM和IM所用的仪器制造商各不相同(表3)。对于CHEM,只有一个医疗中心使用了不止一家供应商,而所有其他医疗中心均使用一家供应商的仪器。全部制造商包括Roche(Basel,Switzerland)(n=10,48%)、Beckman Coulter(Brea,CA)(n=6,29%)、Siemens(Berlin,Germany)(n=4,19%)、及Abbott(Lake Bluff,IL)(n=1,5%)和Ortho(Raritan,NJ)(n=1,5%)(表3)。相比之下,对于IM,21个医疗中心中有10个(48%)使用了多家制造商的仪器(范围,1-5),包括Roche(n=13,61.9%)、Beckman Coulter(n=10,,47.6%)、Siemens(n=9,48.9%)、Abbott(n=7,33.3%)、Ortho(n=1,4.7%)和Bio-Rad(Hercules,CA)(n=1,4.7%)。

表3. 运行全自动化学和免疫化学检测所用的仪器

A.png

CHEM QC的运行频率存在很大差异(见表4),范围从每天(n=3,14%)到每2小时(n=2,10%);中间频率包括每4小时(n=3,14%)、每6小时(n=1,5%)、每8小时(n=6,29%)和每12小时(n=6,29%)。两个医疗中心(10%)对电解质与其他CHEM检测采取了不同的QC频率。24小时内每个分析物的QC“事件”总数(定义为一台分析仪上运行QC的总次数,无论质控水平数是多少)从最少1到最多12不等。三个医疗中心(14%)每个班次只使用一个质控水平或者非日间班次使用另一个质控水平(例如,早上使用高水平质控,下午使用低水平质控,以及夜间使用中水平质控)。


IM和STAT IM的QC频率和数量也存在差异(例如,肌钙蛋白和β-人绒毛膜促性腺激素[hCG])。不同医疗中心每天使用的非STAT IM QC水平总数各不相同,从每天最少两个水平到最多三个不同的水平(表4)。24小时内IM的QC事件差异没有CHEM大,范围从1到7。对于STAT IM,19个实验室使用两个或三个水平,1个实验室对肌钙蛋白使用四个水平(包括一个接近99%临界值的QC),1个实验室对肌钙蛋白使用五个水平,而有4个实验室在不同的时间点使用替换水平。24小时内STAT IM的QC事件从每天1个到12个不等。如同CHEM,有些医院在选定班次使用单一质控水平。


对于CHEM,很多医院使用多个来源的QC物质(n=8,38%)(见表5)。然而,所有响应者主要依赖于第三方QC物质(n=21,100%)。Bio-Rad(n=19,90%)是最常用的第三方试剂,其次是MAS ChemTrak (Thermo Fisher Scientific,Waltham,MA)(n=2,10%)。对于IM,12个实验室(57%)使用不止一个来源的质控物质。同样,最常用的是Bio-Rad QC物质(n=19,90%),而相比于第三方QC物质,另外2个实验室(10%)更喜欢使用制造商的QC物质。


大多数医院使用2SD的QC规则(n=16,76%),2家医院(10%)使用2SD与3SD之间的可变规则(取决于检测),1家医院(5%)使用3SD临界值(见表6)。2家医院(10%)使用Westgard规则的推导规则,主要取决于检测。对于IM,17家医院(81%)选择2-SD规则,1家医院(5%)选择3SD规则,3家医院(14%)选择Westgard规则的一些排列。


当QC失控时,除了一家医院以外,所有医院选择重复质控且如果重复结果恢复在控就接受结果(n=20,95%),尽管有些医院存在一定细微差异(比如,质控超过4SD以上时立即拒绝运行;(见表7))。一个医疗中心(5%)在两次质控超过2SD或一次质控超过3SD时拒绝了运行。另一个医疗中心(5%)在两个质控水平的其中一个水平与目标值相差2SD时重复QC,但在三个QC水平中只有一个水平超过2SD时接受了运行。这个医疗中心在质控违反了以下规则时也立即拒绝了运行:1- 2.5S、2-2S、2/3-2S或R-4S规则。只有实验室E没有重复质控;如果一个质控水平超过3SD或两个质控水平超过2SD,则运行被视为失控并拒绝。


虽然被调查的大多数医院目前并不使用移动平均数(n=19,90%),但四家医院(19%)希望在不久的将来应用移动平均数(见表8)。一个医疗中心(5%)在私下运用移动平均数,但不用作临床指标。只有一个医疗中心(5%)将移动平均数用于临床,也仅限少数检测。据不使用移动平均数的其中一个医疗中心报告,他们先前应用了移动平均数但发现作用不大。


表4. 质控频率

B.png

C.png

表5. 质控物质供应商

D.png

表6. 质控规则

1.png

表7. 质控规则

2.png

   QC,质量控制。


表8. 移动平均数

4.png

    QC,质量控制。


讨 论


QC是实验室管理至关重要的一部分,实验室主任非常重视QC,因为它有助于确保我们提供准确的结果,从而指导临床管理。这也许与我们研究队列中的高响应率(100%)有关。在本研究中,我们调查了范围较广的、高度受重视的学术性医疗中心,全部来自于《美国新闻&世界报道》2016-2017年最佳医院排行榜。这个排行榜由12个州的21家医院组成。我们选择这个队列作为一组高性能学术性医疗中心,但它们具有不同的实践背景和学术历史。


如预期一样,被调查的实验室使用了各种不同的仪器。虽然有些供应商在响应者中更常见,但没有一个供应商或平台具有完全市场优势。由于QC规则通常与实际检测性能相关,因此可以理解使用不同方法的不同平台在性能上具有一定差异并可能需要不同的QC规则。QC频率与制造商之间没有明显趋势,而使用相似仪器的实验室之间存在差异。因此,仅平台选择不太可能显著影响QC实践。支持这点的一个因素是,在使用多家制造商生产的仪器的大多数医疗中心中,仪器之间的QC规则变化不大。


QC频率上的差异引人注目(达到12倍),范围从每天一次到每2小时一次。这点令人惊讶是因为,虽然QC频率可能依据使用的器械、试剂稳定性和检测量不同而变化,但队列之间与结果误差相关的临床风险应当或多或少相似,尤其是常规CHEM/IM检测。可能的因素包括检测方法、检测量、经济制约以及在QC失败的情况下难以重复检测患者样本。QC失败时,有可能需要重复检测自上一次成功QC之后的所有患者样本。对于大容量检测,潜在重复之前24小时内的所有样本将会导致必须获取和重新检测非常多的样本。另外,在纠正错误结果之前出现显著延迟,有可能影响患者护理。这些是合理的担忧,但增加QC频率可能导致由于纯粹的统计学原因而使QC失败增加,从而引起不必要的纠正措施、结果延迟和成本增加。


参与调查的一些实验室报告了其他QC实践。在调查时,三个实验室(C、J和M)执行“替换水平”QC检测 -即在每日启动后不是在t=X小时检测两个水平的QC物质,而是在t=X/2小时检测一个水平并在t=X小时检测另一水平。实验室C和M对CHEM执行此类“替换”QC检测,但对STAT IM执行所有三个水平检测(实验室C对肌钙蛋白执行三个水平检测,但对hCG不是),只有实验室J对IM执行替换QC检测(调查期间,实验室J已停止替换QC检测)。理论上来说,与在两倍时间间隔执行两个QC水平相比,这种做法缩短了检出失控情况的时间。这种做法假设检测任一QC水平将同等地检出所有失控情况,但这种假设不一定在所有分析情况下适用。


有些实验室减少了每日启动后检测的QC水平数;例如,如果检测三个QC水平后证明仪器上的一项检测在时间t=0小时是“在控的”,那么在接下来的24小时内后续的QC检测事件可能只应用一个或两个QC水平。四个实验室(G、M、N和Q)对CHEM采取这种做法,五个实验室(G、J、M、N和Q)对IM采取这种做法,以及六个实验室(A、C [仅肌钙蛋白]、G [仅hCG]、J、M和Q)对STAT IM采取这种做法。两个实验室(A和J)对电解质(Na、K和Cl)执行的QC检测频率高于CHEM,很可能是由于检测量较大。


QC物质几乎全部来自第三方,只有一个实验室主要依赖于制造商供应的QC物质(仅限IM)。第三方物质在理论上具有优势,能够更独立地验证检测功能,并且如果出现很多重复失败,能够将QC物质返回总公司进一步分析。另一方面,制造商生产的物质具有特别针对受质疑系统和检测的潜在好处,这样检测失败可以追溯到单一制造商来源,而不是查询两个不同的供应商关于QC物质和机器的问题。尽管考虑到这些理论优势,但对于哪种是最可靠的QC物质选择方法,尚无系统研究。


大多数响应者几乎完全使用2SD的QC范围,14%(n=3)使用2SD与3SD之间的组合。这是意料之外的结果,因为1-2S不是标准Westgard规则,只是作为警告。假设重复分析时QC物质的数值呈正态分布(即,正常的随机差异而没有系统偏移 [bias]),那么QC会有大约5%的可能超过2-SD质控范围。与之相比,使用3SD临界值时,QC只有1%的可能超出范围。虽然2-SD QC规则发现较小分析差异的可能性增加,但大家会认为特异性降低了,且发生很多QC超出范围的结果仅仅是由于偶然。相比之下,在使用了3SD或2×2SD的实验室,从理论上来说,基于随机误差出现QC失控的潜在概率为1%或0.25%。


在响应调查的21家医院中,只有两家明确地使用了Westgard规则的推导规则。这些规则由 James Westgard及其同事于1970年代引入,为了应用从数学上来说严密的方法使质量控制系统化。Westgard规则用于评估QC数据,目的在于捕获增加的差异(随机误差)和偏移(系统误差),同时使假阴性和假阳性最小化。假阴性最小化尤其重要,因为这些患者可能被完全漏掉或不做相关检查而出院(与假阳性相反,进一步检测可以揭示能揭露真相)。


Westgard规则有过几次迭代,但超过2-SD水平就进行标记和重复质控的过程并不在标准规则范围内。在正常差异的情况下,大约20个QC结果中将有一个结果超出2-SD范围,假阳性率高。然而,如果拒绝运行需要两个连续2SD误差,则基本拒绝率为0.25%,低于使用3-SD临界值的概率。依赖一次QC异常且稍后重复QC也异常,需要较高水平的系统偏移,而如果问题是变异性(variability)增加,则重复QC可能非常正常。即使存在偏移,两次连续QC检测超出2SD范围的要求,也可能漏掉一个10x规则即可检出的很多低级偏移。10x规则是指,如果在同一方向上10次连续QC结果均超出1SD范围,则标记运行。相比之下,检测的变异性增加可被 1-3S规则更好地检出,即在单一QC值超出3SD范围时标记运行。当然,结合两种规则将检出两种截然不同的误差类型。通过这种方式,多规则QC检查比单一总体规则检出不同误差的灵敏度更高。虽然没有很多研究验证重复QC样本的做法,但2012年的一项研究表明,这个过程提供的性能与1-3S/2-2S/R-4S多规则属于同等水平,代价就是QC物质的成本稍微增加(由于重复率增加)。但是,这项研究的局限是,使用了一种简单的计算机数学模型(模拟不同水平的系统误差),而且只与简略的Westgard多规则相比较。


本调查未能捕获的另一种差异是SD推导方法。执行QC时计算SD的最常用方法是,运行一种质控分析物很多次(通常至少20次)并测定结果的SD。用于计算SD的重复次数可能由于实验室、机器和分析物不同而变化。另外,很多质控品的包装说明书中提供了制造商推荐的标准差范围。


虽然19%的医院有兴趣使用移动平均数,但绝大多数医院(90%)不使用。只有一家医院在QC实践中使用移动平均数(另一家私下使用但不完全使用),还有一家医院先前使用移动平均数但发现用处不大就停止使用了。总体来说,这是一个令人惊讶的结果,因为移动平均数在理论上是有用的,而且价格不贵、易于实施。追踪这些移动平均数的软件也包括在商用软件系统内。移动平均数有可能检出通常不会触发正常QC标记的低级测定值漂移(drift)。


一家实验室提到他们使用能够促进性能的QC方法,另一家实验室建议建立QC目标。这涉及到使用生物变异数据设定允许总误差目标和QC规则。对于丙氨酸转氨酶这样的检测,个体内和个体间变异较高(分别为24.3%和41.6%),从理论上来说,可接受不精密度目标可以从±2SD放宽到±2.5SD甚至±3SD。这种方法可减少假性拒绝的数量和使真正拒绝的数量最大化。


总体来说,我们的发现证明了,这些学术性实验室的QC实践存在异质性但又有惊人的相似性。75%以上的医院使用2SD的QC范围,而且几乎所有医院(90%)采取重复失控QC且如果重复值在控就接受结果的策略。数学模型显示,对于改进QC性能,超过2SD质控范围时重复QC的方法比简单的多规则方法(在这种情况下指1-3SD、2of3-2SD/R-4)有效。与这些通过数学分析建立的QC方法相比,大多数医院采取的策略似乎以“经验验证”的方式在演变。2SD或相似临界值与重复QC在我们的研究队列中较常见,表明这种做法在临床病理学中很可能已经根深蒂固。


本研究的局限性包括使用基于调查的方法:为了确保最大依从性,我们限制了调查的问题数量。并不总能从每个医疗中心获得极尽详细和精细的信息,所以使用的数据集不统一,根据答案可能产生错误理解。我们试图通过与参与作者通讯来最小化这一点(每个作者都知道哪个匿名信函与他或她的实验室相对应)。实验室的全面质量管理包括QC作为基本宗旨,但是还包括一系列广泛的下一级实践,以确保检测结果质量。未来这种研究的方向包括深层次地调查QC计划的异质性,以及这些不同的实践如何影响结果报告和患者护理。


总而言之,本研究证明了学术性医院的QC实践之间既有相似性也有差异性。似乎没有系统的方法来定义QC规则和频率。Westgard规则提供了一种系统的、经过全面审查的QC方法,在检出误差的同时使假阳性率最小化;涉及重复QC水平规则的其他方法也从数学上进行了研究。有趣的是,只有少数学术性中心实验室使用Westgard规则。大多数实验室更喜欢内部验证的QC规则,依赖主任的经验和专业知识而不是经过严密验证的统计学方法来设计QC规则。我们认为大多数学术性医疗中心化学实验室具有相似的检测量,如果常规生化/免疫化学检测具有标准化的QC方法且能够经得起严密的统计学验证,患者群体会从中受益。调查结果表明,是时候由实验室专业组织召集共识专家组,为化学实验室确定一种最佳QC实践方法(或多种方法)。通过增加误差检出率,以及降低与过度QC和使用产生较高运行拒绝率(假阳性)的QC规则相关的成本,有助于确保高质量的检测。