IFCC:PBRTQC性能验证建议

作者:编译: 贲文锐 审校: 温冬梅 毛远丽
2021-12-16

基于患者数据的实时质量控制(PBRTQC)是监测检测过程性能的实验室工具。常见的方法有Bull算法,正态均值,移动中位数法,移动平均值法(MA)和指数加权移动平均法(EWMA)。最近移动标准差法、移动差值检验法、移动离群值法和移动百分位数等新方法也都有报道。随着统计方法的成熟、信息技术的发展以及对内部质量控制系统局限性认识的提高,这些方法得到了越来越多的关注,事实上,Bull算法已常规应用于临床血液学实验室。最近在综合实验室的成功实施证明了PBRTQC的价值,并进一步坚定了临床实验室对该方法的信心。节约成本和发布检测结果前可验证检测系统性能的功能是其更大的优势,这很适合临床实验室工作中的风险控制。国际临床化学和检验医学联合会PBRTQC工作组也制定了单独的文件,这些文件为实现PBRTQC的信息系统和实施提供指导,常规实验室中采用PBRTQC非常有帮助,通常PBRTQC实施的一个关键步骤就是性能验证和文件化并将其纳入实验室质量体系中。该验证过程应真实反映 PBRTQC在应用环境中的实际性能,以便实验室工作人员进行适当的风险评估。本文重点介绍实施前对PBRTQC进行性能验证的建议。

1. 数据提取:实验室对数据的提取方案很重要,如分配单独的数据组用于数据选择、参数设置、优化目的(训练集)及性能验证(验证集)。通常,数据是在连续时间段内被提取并分组的。训练集与验证集的分配比例可以从50:50到80:20不等,取决于数据密度。最好将提取的大部分数据分配给参数设置和优化,剩余的数据留给性能验证。数据集可以通过简单的分组或使用更复杂的随机化方法进行分配。关键要考虑的是确保验证组足够大,能够产生有意义的结果并且能够代表整个数据集。提取有代表性的历史数据作为训练数据集,以便了解实验室测量的总体数据模型并设置PBRTQC参数。历史数据应涵盖足够长的数据收集时间,以覆盖所有由于临床环境和实验室方法导致的被测物的潜在变异。需要考虑的重要变异包括患者群体变异、试剂批号和校准品批号变化(至少两个不同的批号)。通常,至少应收集6个月的数据(以涵盖足够多的周末),用一年或更长时间收集的数据可能更全面地反映所有变化,包括年度变化。同时,对于来自各个专科的数据(如肿瘤科),也必须注意不要在临床诊疗方案发生变化(例如癌症治疗方案发生变化)之前的时期收集数据,这些变化可能会严重影响某些指标的分布。抓取此类历史数据可能会增加结果分布的变异,干扰参数设置和验证解释。任何由于实验室错误而导致的误差结果都应该避免。

2. 建立基于患者数据的实时质量控制:PBRTQC建立指南之前已有文献详细介绍过。简单来说,实验室用户应该熟悉可能影响测量结果的生理、病理和分析前因素以及改变结果分布的排序行为的变化。根据需要应用最佳模块大小、统计模型、特定的纳入/排除标准、截断限和数据转换。计算总体或总体结果群的平均值和标准差,并根据选定的质量目标选择控制限。PBRTQC参数可以根据已发布的示例、幂函数图或模拟软件(例如https://www.huvaros.com)进行选择。

3. 性能验证:在对PBRTQC参数进行基本设置后,需进行反映所在实验室设置的性能验证,这是为了确保在使用前进行适当的设置,以避免对常规临床操作造成干扰,它也可以作为一种对软件熟悉操作和检查软件的正常功能。性能验证的结果可用于进一步细化PBRTQC参数并优化性能,从而最好地平衡实验室的风险状况和操作要求。值得注意的是PBRTQC的细微调整是可以接受的,但参数的重大变化需要使用单独的历史数据集进行重复验证,最终选择的PBRTQC参数应与验证过程中获得的性能特征一起形成文件进行记录。

4. 性能验证的类型:PBRTQC有多种性能验证指标。它们包括报道过的幂函数分析、允许总误差(TEa)检测概率、平均值法和中位数法在误差检出前所需的患者样本结果数(ANPed或MNPed)、误差检测的灵敏度/特异性、偏倚检测曲线和在指定概率下误差检测所需的患者结果数。PBRTQC的性能验证可以通过计算机分析进行,这可以在不产生超出所需人力、计算能力高成本的情况下完成。由于ANPed方法在概念和应用上相对简单,本文提供了对MA法采用ANPed方法进行性能验证的详细指南,以及基于偏倚检测曲线和MA验证图等更复杂方法的验证,这些方法提供了患者风险评估的PBRTQC设置,是基于真实误差检测的模拟。

5. 建立假阳性率:筛选的验证实验室数据首先根据报告时间顺序排列,之后,将选定的PBRTQC参数应用于验证数据集,这将产生一个PBRTQC基线模型,见图1,记录MA超出控制下限或上限(标志)的实际例数。如图1示例中,有7个标记,这代表0.7%(7/1000)的假阳性率。在实践中,通过过滤和计算超出控制限制的结果数,可以轻松地计算标志的数量。根据测量项目的不同,实验室应确定每个周期(如天或周)实验室质量管理可接受的假报警数(假阳性率)[1]。其他学者使用了一种方法,在这种方法中,根据设计,自动控制限制基于训练集的不可接受的假报警率进行设置,可以手动调整实现[1]。验证过程应确保不超过允许范围的假阳性率。

问题与建议-图1.png

注:连续1000个钠的测量结果的移动平均值(20个数据计算一个平均值)箭头表示没有实验室误差情况下的假阳性标志。UCL,控制上限;LCL,控制下限。

图1. 基于患者数据的实时质量控制图


实际上,当触发MA警报时,我们会对其进行调查,并将受影响的结果从以后的分析中除去以避免潜在问题解决后触发误报。为了在操作上更好地定义假阳性率,可以表示为带标志的天数(或班次)和不带标志的天数(或班次)。这需要更细致的分析,要考虑到实验室的操作条件和分析过程中的数据处理。

6. 建立ANPed:如前所述,建立PBRTQC基线模型后,可以引入系统误差(bias)。这个例子中,选择了3mmol/L的系统误差,它代表澳大利亚皇家病理学家学院质量保证计划推荐的钠分析性能规范(或“总允许误差”)。可以根据实验室的质量目标,检查系统误差的其他量级(例如分析性能规范的分数或倍数)。

为了模拟正偏移,将检查中的误差大小添加到模型的原始结果中,然后重新应用PBRTQC模型并计算移动统计量,需要强调的是,在应用任何数据截断和/或转换之前都应引入系统误差。最好检查正负两个方向的系统误差,因为在实践中可能会发生任何一种情况,此外,PBRTQC误差检测性能在正偏差和负偏差之间存在显著差异。

可以在数据集中的不同时间点引入选定的系统误差,这可通过在筛选的验证组数据中第n次结果后引入(即添加或减去)系统误差并重新应用PBRTQC模型来实现,如图2A所示。在可变数量的块大小中引入系统误差并维持,以模拟持续误差的可变持续时间(例如从1个块大小到超过10个块大小)。对于当前的例子,在MA中对应的第20个数据点的结果之后,将3mmol/L添加到200个连续结果(10倍的20块大小)。引入系统误差的点(第21个MA数据点)和第一个突破控制限的MA数据点(第31个MA数据点)之间的间隔是误差检出前前受影响的患者结果数(NPed=10,见图2A)。系统误差可以在验证数据集中任意时间间隔的多个后续时间点引入,并可以导出NPed(图2B),对于负方向的系统误差应重复同样的过程(图2C)。上述评估可以编码为宏或其他模拟设置,实现该过程的自动化。

系统误差可以在任何间隔重复引入,然而,通常希望间隔均匀地分布在整个数据集中,以确保全面覆盖数据集中的可变性。对给定数据集进行足够数量的系统误差重复引入,以确保稳健的统计估计。由重复引入系统误差得到的NPed的平均值就是ANPed。


问题与建议-图2.png

注:(A)在第20个结果后将系统误差(3mmol/L)引入基于患者的实时质量控制模型,并持续200个后续结果。(B)在第40个结果后引入系统误差,重复这个过程,并持续200个后续结果。(C)显示了在负方向引入系统误差。

对于A、B 和 C,在误差检出前受影响的患者结果数量分别为 10、11 和 7。UCL,控制上限;LCL,控制下限。

图2. 误差检出前受影响的患者结果数量(NPed)示例


7. 评估ANPed:理想的ANPed是针对被测物并取决于被测物临床危害风险和实验室的风险状况。ANPed 越小,表明误差检出之前错误报告患者结果的风险更低。然而,ANPed通常与假阳性率成反比关系,必须注意平衡低ANPed的好处(较早识别检测误差检测)和高假阳性率风险,在这种情况下可能会花费大量的实验室资源来处理假警报。高的误报率会PBRTQC系统的可信度,导致报警疲劳,更糟糕的是,误报可能会不必要地延迟实验室结果的报告,而这些结果可能为患者护理提供关键的临床信息。

通常,希望ANPed小于实验室中使用的内部质量控制测试之间分析的患者样本数量或小于给定的结果块大小,与现有的内部质量控制实践相比,这提高了实验室的误差检测(危害/风险降低)能力。或者,我们希望ANPed比纠正任何系统误差、防止发布可能导致患者伤害的结果所需的时间要小。图3显示了在一个作者的实验室中进行的实际验证。

问题与建议-图3.png

图3. 临床实验室验证研究示例

从实验室数据库中提取了在选定仪器上运行的一系列检测结果。接下来,通过斜率校正引入人为偏差(一个实验为正偏倚,另一个实验为负偏倚,并且使用模拟程序离线运行无偏差和有偏差的结果。误差检测灵敏度从两个维度进行评估:错误结果触发移动中值规则的能力(标记误差阈值-灵敏度A)和“从后面释放”的可靠性(即在分析了MA块的其余部分并发现没有超过控制限制之前,第一个被分析的样本不会释放);块中的最后一个结果是一种不允许发布任何错误结果的算法(灵敏度B)。

蓝色圆圈=计算的患者结果块;红线=误差限制;绿线=块的平均值(所有实验室的累积值);被测物=游离甲状腺素;块计算算法=Ln的均值(结果×1000)。

8. 偏差检测曲线和MA验证图:另一种优化和验证PBRTQC设置的方法是使用类似的模拟设计,计算受影响患者结果的中位数[23]。这些模拟是针对不同的系统误差和PBRTQC计算算法进行的,获得的结果显示在所谓的偏差检测曲线中。这些图可以用于比较不同PBRTQC程序的性能,允许选择对实验室来说最优的PBRTQC程序(图4)。下一步是通过获得MA验证图对选定的最优PBRTQC程序进行更彻底的验证。此处,不仅显示了从执行的模拟中获得的中位数,还显示了受影响的患者结果的95%、99%或最小/最大数量(图4)。因此,这包括对PBRTQC误差检测性能的更深入的了解,也许更重要的是对其不确定性的了解。这些图表的使用得到了实验室可用的在线MA生成器应用程序的支持(www.huvaros.com.)。这种方法的适宜性已在一项前瞻性研究中得到证明,该研究表明,当应用于24项化学测试时,报警数量是可控的,每个测试都在两个随机访问的化学平台上运行,此外,PBRTQC允许检测相关错误。

最近,提出了一种结合使用MA生成器以允许PBRTQC实施的方法。该方法包括成功实施PBRTQC的后续步骤、考虑PBRTQC分析方法的选择、应用MA生成器获得PBRTQC设置、确认PBRTQC适当性和实验室程序设计的验证阶段,以实现适当的PBRTQC报警确认。


问题与建议-图4.png

注:(1)左:使用偏差检测曲线进行 PBRTQC 优化。这里介绍了计算最近5、10、25、50和99平均值的5个PBRTQC程序的性能。当使用相应的PBRTQC设置研究系统误差范围时(X轴),这些线表示PBRTQC误差检测所需测试结果的中位数(Y轴)。通过这种方式,可以比较各种PBRTQC程序的误差检测性能,并可以选择“最佳”的误差检测配置文件。这个过程可以重复多次来研究所有感兴趣的变量(算法、截断限制等)。通常,优化是基于平衡大错误的快速检测与小错误的检测或可靠的TEa检测。(2)右:MA验证图。选择最佳PBRTQC后(此处为PBRTQC程序使用最近25个结果的平均值计算),性能验证显示在MA验证图中。图中还提出了PBRTQC的不确定度系统误差检测方法,条形表示系统误差检测所需的结果的中位数,误差线表示模拟结果的95%区间。因此,上面的误差线代表了执行97.5%的模拟中检测系统误差所需的患者结果的数量。使用MA生成器生成数据(www.huvaros.com. 于2019年9月30日访问)。

图4. 以血红蛋白为例进行PBRTQC优化和验证


9. 其他验证方法:还有许多替代策略也用于验证PBRTQC的性能,实验室可以根据已在别处描述过的基本统计方法的适用性和熟悉程度进行选择。一般来说,尽管提供患者风险信息的方法可能是首选,但它们都是性能验证的有效方法。一个专门的模拟软件可以提供最方便的方式来执行这个过程(例如https://www.huvaros.com)。另一种验证PBRTQC性能的有效方法是在工作环境中运行算法而不激活报警。这将有助于让实验室了解将生成的报警数量的真实情况,并在上线之前决定其是否需要处理。

10. 性能验证的文件化:在确定好PBRTQC参数并完成验证过程后,应及时记录下来这两套参数,这将有助于确保原理的可追溯性、采用特定PBRTQC的设置过程及合规性,建议记录的项目如表1所示。

表1. 基于患者的实时质量控制(PBRTQC)性能验证中建议记录的项目

项目

描述

PBRTQC参数

检测背景

相关的生理、病理和分析前因素的简要总结,这些因素可以影响测量并与改变结果分布的排序行为的变化

数据来源

用于开发PBRTQC模型的数据来源,例如来自实验室信息系统

提取日期

提取数据的日期

训练集数据的持续时间

用于PBRTQC参数设置和优化的提取数据所涵盖的时间段

验证集数据的持续时间

用于PBRTQC性能验证的提取数据所涵盖的时间段

纳入标准

PBRTQC模型使用的任何纳入标准

排除标准

PBRTQC模型使用的任何排除标准

截断界限

截断界限用于排除异常值或减少数据的可变性,也提供来源

数据转换

应用统计转换来标准化数据(即近似高斯分布)

移动数据使用

使用移动统计数据,例如移动平均数、移动中位数、指数加权移动平均数等

人群目标值

总体或总体结果块的平均值

控制限制

一般取总体或总体结果块的均值标准差的倍数

最后修订日期

修订日期的文件

性能验证

数据来源

用于验证PBRTQC模型的数据来源,例如来自实验室信息系统

提取日期

提取数据的日期

数据持续时间

提取数据覆盖的时间段

系统误差选择

选择用于检查的系统误差的大小,如果可能,提供来源或理由(如某个质量保证程序或生物学变异的分析性能规范)

使用的统计软件

验证所用的统计软件,提供版本号

执行验证的人员

执行验证的人员姓名

选择验证参数

选择的验证方法,例如误差检测之前受影响的患者结果的平均数

实现验证参数

以合适的统计参数表示的性能验证结果,例如假阳性率、ANPed等

11. 结论:PBRTQC是实验室质量工具中令人兴奋的新工具,本文可作为PBRTQC性能验证的实用指南,增强对应用该方法的信心并提供用于监管的适当文件。希望本文能减少人们在常规实验室操作采用这种技术实践过程中产生的困惑。