IFCC工作组对评估互换性的建议1: 一般实验设计

作者：上海昆涞、赛默飞世尔 17646

2021-12-16

互换性是参考物质的一个性质，与使用≥2个检测程序（MP）时，某个参考物质（RM）和临床样品（CS）结果间一致性的紧密程度有关。用于校准溯源性计划的参考物质互换性是为参考物质符合目的必须的性质。同样，正确度控制品或室间质量评估样品的互换性，在用于评估临床样品结果正确性是必须的。本报告是3个部分系列的第1部分的报告，叙述了如何评估参考物质互换性。第1部分确定了（定义了）互换性，和为互换性评估的实验设计提出了关键组成要点，包括各个临床样品的选择、混合临床样品的使用、检测程序的指标（限定条件）等，即确定某参考物质是可互换的指标，产生互换性结论，将用于与检测程序一起的未来检测，包括在评估、关于互换性的信息，被包括在某RM参考物质的（certificate）证书。系列的部分2和3叙述互换性评估的2个不同的统计方式，使用与医学决定关联的固定指标，用于使用实验室检测结果的审核。

背景

检验医学面临的一个挑战是不同检测程序（MP）间结果缺少一致性，意即结果不合适依据那些实验室检测数据做出的医学决定。造成缺乏一致性的一个原因是使用了不可互换的参考物质，它作为临床实验室检测程序校准溯源性链的校准品。

在这个系列内容中，我们考虑如何决定某个参考物质是否具有合适的互换性，在检测程序的校准溯源性链上被用作通常的校准品去确认校准；或作为一个室间质量评估（EQA）或能力验证试验的样品。本部分我们叙述实验设计的通常要求。在部分2和3，我们展现了2个不同的统计方式去评估互换性。部分2适合用于当某个参考物质预期用作校准品、一个正确度控制品、或一个EQA物质（1）。部分3只适合在参考物质预期用作校准品（2）。

这个系列的文章认可了在国际计量学词语中叙述的词语检测程序和检测系统（MS）。一个检测程序为一个检测如何进行的书面详述，包括试剂、校准品、设备、仪器的技术描述和其他有必要详细叙述的内容，以创建和启动一个检测系统，实施那些规范。一个检测系统是一个物理体外诊断（IVD）的医学设施，按照检测程序的指标制备，用于对临床样品进行检测，产生用于研究的结果（量值），为患者护理做出决定。例如，为实施一个单一的检测程序，制备了上百个相同检测系统；被不同的临床实验室用于产生临床样品的结果。检测系统另一个示例是由临床实验室形成的一个检测系统，即实施一个实验室形成的、自己使用的检测程序（经常被称为实验室形成的检测）。一个参考物质的结果和使用不同检测系统检测临床样品的结果用于评估某个参考物质的互换性。关于互换性的结论被假设，可应用到所有其他实施相同检测程序的检测系统。为了简单起见，在本系列报告中，我们使用术语检测程序来表示检测程序或来自特定检测系统的结果，该特定检测系统是代表检测程序的IVD医疗设备。

检测程序间结果的差异会因为以下来源的误差：

（a）批内变异，包括趋势，因实施条件变异所致；

（b）批间变异，因在建立校准响应功能的随机误差、性能条件和校准品性质间的互相作用所致；

（c）校准品定值的误差；

（d）一个不合适的校准模式，例如在响应和浓度间的关系（即存在的物质量或其他量值）为非线性时却使用了线性模式；

（e）在校准品和临床样品间预期被检测的影响量响应的差异（这个差异引起了信号和校准品浓度间的不同关系，超过临床样品的信号和浓度间关系，是一个系统误差，被认定为校准品的不可互换性；见以后的定义）；

（f）响应影响量的差异，在临床样品间的差异被认为是样品特定的影响；

（g）对被测量选择性上的差异，响应影响量的差异。

当我们在1批内以≥2个检测程序检测临床样品比较结果时，作为一个互换性的评估，我们仅仅可估计误差b到e的综合影响。误差来源c到e影响了临床样品在检测程序间的系统差异。在2个检测程序间的系统差异可以被表达为一个常数（恒量）或一个浓度的函数。上述误差来源e、f和g的影响，取决于检测程序对被测量的选择性。误差来源e影响了某个参考物质预期为系列检测程序作为一个通用校准品的不可互换性，是本报告的主题。如果某个参考物质与临床样品在检测程序的检测响应中是可互换的，则该参考物质可用于为检测程序的校准溯源性的计划，以减少临床样品结果间的系统差异，为临床样品产生等同的结果，无论使用什么检测程序在规定的限值内。

在上述误差来源f中样品特定影响会是一个在评估某个参考物质互换性中的混淆的课题。若我们考虑一个特定的临床样品，样品特定误差可以被考虑为系统的（它不可被重复检测减少）、但在临床样品的群体中，各个临床样品的样品特定误差看来呈随机变异表现，我们可设定一个SD。结果，样品特定影响的大小可影响互换性的评估，可以在本系列的部分2中进行实验设计予以估计。

互换性的定义

VIM确定（定义）了互换性为：某个参考物质的性质，按照2个给定的检测程序得到了在这个物质内某个规定量的检测结果关系以及对其他特定物质检测结果间得到的关系间的一致性。

对于医学实验室，其他特定物质是临床样品，预期用于检测，量通常为被测量。临床样品可能来自健康的志愿者或患者。一个参考物质互换性的定义关注2个检测程序。当被应用到如ISO 17511 IVD医学设施——检测生物样品中的量值——为校准品和控制物质定值的计量溯源性中，该定义适用于用于溯源性计划的2个检测程序的每个结合。但是，当该定义某个参考物质预期为某个被测量使用的多个不同检测程序，为互换性评估的实验设计应包括某个参考物质预期被使用的所有检测程序。

互换性可以被规定为某个参考物质的性质，指示了某个参考物质在检测程序中模拟经典的临床样品特性在某个检测程序中为规定的被测量有多好。互换性对用于校准溯源性链的参考物质很重要，以确保临床实验室无论使用什么检测程序，检测的临床样品结果都将是等同的。等同意即被某实验室检测结果在某患者护理的决定中使用的医学要求确定的限值内。

被测量的VIM定义（预期被检测的量）在应用到互换性的评估中具有局限性。在选择样品或认定的检测程序包括在某个参考物质评估互换性时，考虑被检测的化学种类很重要。在一些情况下，或某个检测程序会检测多个化学种类的能力或是因为很差的选择性。来自可互换样品的EQA数据，可证实没有检测相同量的检测程序。另外，在一个EQA计划的亚组内会反映EQA物质中的不合适确定的被测量。在这样的情况下，被检测的量会需要更明确地定义。

互换性的评估

互换性的评估要求以下步骤：（a）得到被评价的参考物质；（b）得到代表性的临床样品（临床样品）；（c）在互换性评估中使用检测程序检测参考物质和临床样品；（d）应用某个程序评价参考物质结果的互换性，即与临床样品结果的关系。近期可用的程序，去评估互换性使用的指标，仅依据在2个检测程序间临床样品结果差异在统计上的分布；这样，该指标会随着不同精密度性能的检测程序的不同组合有差异（4，5）。互换性评估的指标应对所有评估中的检测程序是一样的，应依据在参考物质和临床样品间对使用实验室检测结果确定的医学决定差异的影响。在部分2和部分3的统计方法，展现了互换性评估程序，可以依据在参考物质和临床样品间结果上医学关联的差异为指标（1，2）。

依据部分2方式的互换性评估示例，见图1。一组临床样品和5个候选的参考物质显示了2对检测程序间的偏移（x和y；x和z）。相对偏移在整个临床样品的浓度区间内是恒定的；结果，临床样品的平均偏移适合评估在检查的每个参考物质浓度。每个参考物质的误差范围（即重复检测所有结果的分布）指示了参考物质间偏移和临床样品平均偏移的差异的不确定度。不确定度组成了2个成分：临床样品偏移的估计的不确定度和每个参考物质偏移估计的不确定度。图1中蓝色虚线指示了预定的参考物质互换性最大的允许偏移，被考虑足以满足它的预期用途的医学性能要求。指标与检查用的所有对检测程序相同。在包括在误差bar条参考物质的偏移完全在蓝色虚线内时，则某参考物质是可互换的。在图1A中，参考物质1、参考物质3和参考物质5与临床样品是可互换的，因为他们的偏移，包括误差条，在蓝色虚线之内。但参考物质2和参考物质4与临床样品不是可互换的，因为误差条完全在蓝色虚线之外。在图1B，指标相同，因为依据医学使用要求。但是在临床样品结果上离散得多，说明检测程序z具有很大的随机误差成分。增大的离散反映在很大的误差条上，现在使得参考物质1、参考物质2和参考物质5的互换性不确定，因为误差条超出了蓝色虚线。互换性评估展现在图1的示例，反映了临床样品和检测程序的数据，qualify被包括在以下章节中叙述的评估。

实验室质量控制3.jpg 实验室质量控制4).jpg

图1. 显示了一组临床样品（黑菱形）和5个候选参考物质（红方块）相对于每个检测程序检测的平均浓度在两个检测系统间浓度转换 [ln（浓度）] 的偏移。

每个参考物质的误差条（即所有检测结果的分布）指示了在每个参考物质和临床样品平均偏移间差异的不确定度。ln-转换结果的偏移值可以乘上100给出一个大致的百分偏移。黑色直线是所有临床样品的平均偏移（18%）。蓝色虚线指示了对参考物质被考虑与临床样品可互换的最大允许关联互换性偏移。

（A）显示了2个检测程序（x和y）的结果，因检测程序的随机误差和样品特异的影响reasonably相当地小。

（B）显示了2个检测程序（x和z）的结果，其临床样品结果较离散，建议检测程序z具有交叉的精密度，和/或在与检测程序x上有较大的样品特异影响。

在评估互换性中的各个临床样品

临床实验室的检测程序被指定去检测的各个临床样品。临床样品是互换性评估的理想样品，去建立不同检测程序间的关系。一个互换性的评估被预期去证明某个参考物质是否合适用作校准品、正确度控制品或EQA样品。一个互换性的评估不是被预期去评价检测程序对被测量的选择性。在大多情况下，在检测某个给定被测量时，某个参考物质被预期去模仿通常使用的临床样品类型。

临床样品被选择时应考虑检测程序选择性的局限性。个别临床样品内受干扰物影响，使它不适合用于互换性的评估。临床样品应排除那些已知有干扰物的或不常见的分子形式，如发现在很少见的病理情况下出现的，这些会影响所有的或大多研究中的检测程序。建议有更多的临床样品来源，超过为确保有足够有用的数据推荐的统计评估最低需求，将可用于符合研究的统计要求。存在于某个临床样品中某个干扰物质或不寻常的分子形式，只有在数据分析中作为某个离群结果被确认才得以了解。

注意，包括在研究中检测程序的认定资格（见本报告的以下章节）应在设定临床样品排除的要求前实施，这样具有不恰当显著性的检测程序将不会在某个参考物质互换性评价的有用性上给予妥协。在一些EQA应用中，某个参考物质会含有一个不常见的分子形式，对检测程序选择起挑战作用。这样的特殊情况超出了互换性评估的通常目的，不再在本推荐中处理。

在互换性评估中，临床样品中被测量浓度（量值）区间必须包括参考物质，但没有必要去覆盖检测程序完整的检测区间。需要临床样品的数量将随互换性评估的实验设计和检测程序的性能特性而异。在不同的临床使用中，被测量在检测区间中有很大的差异，例如CRP，它的互换性评估会限制到预期用途之一或会要求对每个区间分别实验。参考物质和临床样品的浓度必须在评估中包括在检测程序的检测区间之内。

临床样品在收集和分装、储存和分发中，必须不发生被测量或基质的改变。实际工作中会有必要在互换性评估前储存样品。对某个个别临床样品使用防腐剂、深低温或其他储存条件、混合或任何的修饰（改变），都会影响互换性，应在初步实验中评价合适性。一些在临床样品中的被测量，在规定储存条件下较长时间储存不稳定。这样的情况需要考虑互换性评估的实验设计。用于互换性实验的各个临床样品的分样应予以保留，有可能用于新检测程序的互换性评估，或因为检测程序被要求在性能上的改进被排除。

互换性评估用的混合临床样品

尽管各个临床样品最合适进行互换性的评估，但在互换性评估中为所有检测程序的分布和检测的分样需求，各个临床样品的足够量不总是可以得到的。在这样情况下，使用混合临床样品替代单个供体是减少互换性评估的开支和复杂性的实际解决办法。存在于个别供体样品内某物质的干扰，被混合而稀释。许多单个供体制备的混合血清看来可更好地减少一些个体供体具有的样品特定干扰。但是，混合样品在统计分析中不可用于评估样品特定的影响。

在制备混合样品时，各个供体应符合单一使用的各个临床样品叙述的要求。应实施一个初步实验去说明，混合的临床样品和它们的储存条件，适合替代各个临床样品。混合临床样品会具有基质的改变，引起它们与各个临床样品的不可互换。结果，在用于参考物质互换性评估前，混合临床样品应被确认与各个临床样品是可互换的。展现一些混合临床样品是可以很好，并不保证以相同方式制备的其他混合临床样品，也将是可互换的，但是这是一个合理的假设。当有足够量的供体样品可用时，CLSI的C37包括了展现的确认计划，依据用于制备该混合血清的每个供体样品比例预期值的回收，来展现互换性。当混合临床样品用于互换性评估时，它们的制备和资格必须完整地记录形成文件。

包括在互换性评估中的参考物质

候选的参考物质预期被用作校准链上的校准品，作为正确度物质或经典地由某组织制备的EQA样品，评估它们的互换性是它们预期用途资格的一部分。当参考物质被预期用在稀释后得到的量值在检测程序的检测区间内，则稀释的参考物质必须被评价它们的互换性。一个参考物质的制备预期被用于稀释的，在使用前应提供说明如何得到稀释，处理兼容的或不可兼容的稀释剂，以及其他已知的影响，均可影响稀释的参考物质的性能。

预期将参考物质用于不同PM的通用校准品的，必须是可互换的。但是，产品校准品（终端用户校准品），是某个IVD厂商提供预期仅与特定的检测程序一起使用的，则没有要求是可互换的。在必要时，这样的产品校准品的定值可以补偿恒定的不可互换性的偏移，使得特定检测程序的患者结果可溯源到较高等级的参考。这样的校准品被确认和预期使用，仅仅与IVD厂商证实的检测程序使用，不可用于任何其他的检测程序。

包括在互换性评估中的检测程序的限定条件

与检测程序的厂商合作很重要，在参考物质形成阶段去参与和消除与互换性评估有关的可能限制。一个检测程序厂商会是一个IVD医学设施厂商或一个发展自己检测程序的实验室。在互换性评估中最好包括尽可能多的不同检测程序和分析检测原理。但是，一个互换性评估不可能包括所有检测程序。包括大多有代表性的检测程序，将改善某个参考物质适合用于没有包括在初始评估中的其他检测程序或将进入市场的某个新检测程序。考虑包括市场分享的市售可用的检测程序，以及分析检测原理的类型。对于实验室自行开发的检测项目，可以依据大规模使用的方法或作为对其他实验室服务包括在内。一个检测程序的厂商负责确保某个参考物质是可互换的，并适合用于某个校准品链。

包括在互换性评估中的检测程序，必须具有可接受的性能特性如前述。一些检测程序的改进是某互换性评估的前提。某个检测程序厂商还会要求大量时间去改进某个检测程序；在对检测程序的改进实施时，必须为以后的某个参考物质互换性评估预作安排。

检测程序精密度

检测程序必须具有合适的精密度，因为不恰当的精密度可不当地影响互换性的评估，危害该检测程序的互换性评估。至于何为恰当的精密度没有固定的指导。考虑可接受的精密度将取决于实验设计、转而将被可接受互换性的指标、具有足够重复性的临床样品可用性、分发物质和获得检测的费用等影响。在参考物质和临床样品间一致性要求紧密程度，需要在互换性评估中得以证实、予以确定，检测程序要求的精密度可以依据统计功效分析估计。检测重复性是一个详细的实验设计，可以被调整以减少随机误差。

检测程序选择性

包括在互换性评估中的检测程序，必须对被测量有适当的选择性。合适用于许多正在被临床实验室使用的检测程序的某个参考物质，却因检测程序的选择性差不当地取消该参考物质的资格。不良的选择性在各个临床样品中以偏移予以证实，被称为样品特定的效应，大于其他临床样品的经典偏移，因检测信号被非被测量的其他物质影响所致或因不同检测程序对被测量响应的差异。一个样品特定的效应是某个临床样品的系统误差（偏移），可被考虑在一组临床样品内的一个随机成分，不会因重复检测或校准予以减少。

检测程序的选择性，在确定展现的是否是适当的互换性，使用参考物质时必须予以考虑。它不可能对某个参考物质与某个具有极大的样品特定效应的检测程序一起，展现出适当的互换性。检测程序厂商将需要改善对被测量的选择性，使得参考物质适合用于该检测程序。理想地，不合适的选择性将在检测程序资格评估或一个初步实验中予以证实。但是，非选择性也会直至在互换性评估实施前还未识别，在这样的情况下，该检测程序的结果应从参考物质互换性评估中剔除，而其他的检测程序对该参考物质会适合使用。

某个检测程序的选择性可以依赖浓度，例如，如果某分析物的不同分子形式因疾病情况下产生。一个选择性局限性的示例是，存在的分子形式不能在不同检测程序中以一个恒定的比率检测。具有相同比率的检测程序可以包括在内；其他的需要被排除，除非它们可以改进到回收相同的比率。一个专家组会需要去确定，哪些分子形式和比率与实验室检测项目的医学使用是合适的。

确定某个参考物质是可互换的指标

某个参考物质的预期用途，将影响互换性指标的选择。某个参考物质互换性的指标关联某个个别临床样品结果的允许偏移（8）。已经叙述了多个方式去确定某个临床样品结果的允许偏移，依据某临床样品的某个被测量的不确定度，考虑来自医学决定对患者的危害风险（9）。某个参考物质预期用于某个检测程序校准链上的校准品的互换性指标，应是在校准链上关联位置处要求的不确定度的组分，以达到临床样品结果的允许偏移。

EQA或正确度控制物质通常预期去验证（不是建立）某个个别结果是否在一个可接受的检测误差之内。该指标应考虑EQA和正确度控制物质通常被检测的是单次检测还是多次检测。所以，偏移和不精密度二者可影响某个检测值。互换性的指标应是评价某个EQA或正确度控制结果的可接受限值的偏移成分。

一致性的紧密程度（Closeness of agreement）是一个相对词语，有些参考物质结果会具有与临床样品结果很紧密的一致性。对一些检测程序较其他有更好的互换性。依据实验室检测结果的预期医学用途的指标为首选，但需要考虑检测程序性能的能力。应在开始互换性评估前就确定某个结论的指标，某个参考物质是可互换的是依据医学要求的。如果没有可用的参考物质可以符合该指标，则指标可重新考虑，以允许某个参考物质的产生，在被用于某个校准链上实在地改善了不同检测程序间的临床样品结果的一致性，由此改善了医学决定，并减少了对患者危害的风险。

与检测程序性能特性有关的指标

依据检测程序间临床样品结果的统计分布的指标很少合适，不被推荐，因为它们对相同被测量在不同检测程序的组合上产生不同的指标。与实验室检测结果的预期医学用途相比，依据临床样品结果的统计分布的指标会变得不合理地小或大。依据统计限值的指标预期参考物质-检测程序结合的一些组分，无法符合指标，可引起关于参考物质拟合目的的错误结论。但是如果在互换性评估中对所有检测程序使用相同指标的话，与可用的检测程序可实现性能有关的指标会是可接受的。

有些情况下，在研究设计中的实际局限性（如重复次数过少或临床样品样品数少）和/或所有的或许多检测程序的性能能力（如很差的精密度或对样品有特定效应（影响）的高度敏感性），可产生不确定度，可引出无结果的互换性决定的高频率，以及限制了作出某参考物质合适性的决定。在这样的情况下，考虑研究设计和检测程序性能能力，使用较宽松的可接受指标。在这样情况下，声明使用的参考物质应被按此重新考虑。

一组校准品的指标

对一组校准品预期被用于得到覆盖某个检测区间的指标，需要考虑为一个组。如果单独制备的参考物质浓度不同，每个参考物质应分别进行互换性评估。如果参考物质是一个过程制备的，如使用2个浓度的互相混合的或另一个方式在物质间有相同特性的，则在与临床样品结果比较时，每个参考物质浓度会具有相同的或相似的关系（即偏移）。在这样的情况下，参考物质的互换性可以考虑为一组。如果一个参考物质结果的变异[即SD、CV、SD(log)]在不同被测量值（浓度）是不同的，则数据需要相应分组或分段（读者可参考EP09中对分组的详细程序）。依据医学要求的指标会在不同浓度（量值）处是不同的。

参考物质是否为可互换的检测程序的部分

系列检测程序将包括在某个参考物质的互换性评估中。理想地，某个参考物质将对所有检测程序可互换，则它可以用于这些检测程序。但是，这个目标不总是可达到的，在许多情况下有些检测程序对参考物质是不可互换的。预期将某个参考物质用作共同的校准品的，一个对足够的检测程序是可互换的，这样在医学决定上将会改善。同样，当预期参考物质用作正确度控制品的或某个EQA样品的，它的互换性对大多实验室和检测程序使用该参考物质得到正确度和性能上有用的信息应是合适的。

对于可用检测程序的一部分来说，没有简单的建议，因为参考物质必须是可交换的，从而有资格将参考物质作为目的。要考虑的包括检测程序的市场分享和因此会影响参考物质的检测个体数。注意，市场分享可以在世界不同地区不同。另一个考虑的是应在校准链上使用了某个参考物质，达到了整个健康的改善，即使使用的一些检测程序没有达到建立的互换性指标。在这样情况下，指标应依据使用较宽松的指标对医学决定的影响重新考虑。

参考物质在未来检测中互换性的概括

对互换性评估的结论，严格地只能应用在评估实验中的检测程序和检测条件（试剂批号和其他参数）。有可能在互换性实验中使用多个试剂批号、校准事件和相同检测程序的IVD医学设施，但用户应记住，试剂或检测条件的改变，可发生对互换性评估做出的结论不再可用。有更多的实在变化的，如试剂组成配方的变化，变化越大则互换性的结论不再有效的风险也越大。在这样情况下，应重做互换性评估，以确保某个参考物质依然适合它的预期用途。

为某参考物质用户提供的互换性信息

表1包括了关于互换性评估的信息，应对某个认可的参考物质、正确度控制品或可互换的EQA物质形成文件。分析的证书应包括表1信息的概要，以及参考物质厂商的discretion判定的详细内容。所有信息必须按参考物质用户的要求给予提供。建议某参考物质预期被用于校准链的或作为一个正确度控制品的互换性评估的结果应发表于一个对等组审核的杂志上。

结论（总结）

本报告提供了为互换性评估的实验设计建议的关键内容，包括：在评估中的各个临床样品的选择、实验混合临床样品、检测程序的认可资格，建立确定一个指标，某个参考物质是可互换的，也即所有检测程序是相同的，以及关联到一个检测结果如何被用于医学决定、包括在评估中与检测程序一起made with做出未来检测产生互换性的结论以及关于互换性的信息使得参考物质用户可用和包括在某个参考物质的证书内。

表1. 包括在某个参考物质文件内的信息，即与声明的各个检测程序是可互换的。

为互换性评估得到个体临床样品的选择指标；

用于互换性评估的临床样品个数，以及它们的收集、处理、储存和分发的条件；

叙述实验设计，用于评估互换性；在实验设计中包括的参考检测程序，须做出规定；

互换性评估结果的归纳应足够详细，可以验证结论；完成实验结果和数据分析必须对要求的用户可用；

展现互换性的检测程序，包括仪器的特定模式和零件号，试剂、校准品的批号，和校准确认物质。

更多医学实验室质量管理的专业咨询，请扫描本文右方二维码。昆涞二维码.jpg

上海昆涞生物科技有限公司供稿

赛默飞世尔科技（中国）有限公司供稿

<<返回本专题区

IFCC工作组对评估互换性的建议1: 一般实验设计

最近内容

下一篇

上一篇