临床分子遗传试验确认 和验证的标准化框架
实施用于诊断的分子遗传试验的过程是复杂的,且涉及许多水平的评价和确认。美国ACCE框架中详细阐述过程的关键组分是试验的分析确认,临床确认,临床效用及伦理、法律和社会的影响的考虑。在决定建立诊断性试验后,就必须选择要使用的技术及建立合适的实验室过程。开发阶段涉及到对诊断和过程中使用的技术的评价以确保获得的测量与诊断问题有关以及可清楚地确定分析物(即没有混杂因素)。实验室过程的最后阶段是确定试验的性能即准确度是否满足所需的诊断标准。执行的分析确认或验证是否能实现取决于存在的适当的性能规范,其详细说明了在给定的条件下试验的预期的准确度。分析确认或验证的结果决定了试验是否或将如何实施及设定试验性能监测(持续验证)的要求。图1给出的是概述这些概念的简化的流程图。
图1、用于诊断用途的分子遗传试验的实施过程。根据适当的性能规范的可用性:确认(较浅的)和验证(较深的),阴影的箭头代表两种实施的通用路径。虚线箭头代表确认或验证未能满足规定要求的情况。
在表1中规定的方法确认或验证是根据2个重要的国际标准ISO 15189和ISO 17025实验室认可的正式要求,其可适用于基因检测实验室。虽然标准清楚地说明通用的要求(见表1),但对详细的要求或程序提供的指南却很少。
表1、确认和验证
定义(ISO 9000:2005) 也可参见VIM | 确认:通过提供客观证据对特定的预期用途或应用要求已得到满足的认定。(正确地做试验) 验证:通过提供客观证据对规定要求已得到满足的认定。(做正确的试验) |
ISO 17025:2005中的要求 | 5.4.2实验室制定的或采用的方法如能满足预期用途并经过确认,也可使用。 5.4.5.2实验室应对非标准方法、实验室设计(制定)的方法、超出其预定范围使用的标准方法、扩充和修改过的标准方法进行确认,以证实该方法适用于预期的用途。确认应尽可能全面,以满足预定用途或应用领域的需要。实验室应记录所获得的结果、使用的确认程序以及该方法是否适合预期用途的声明。 5.4.5.3注1:确认包括对要求的详细说明、对方法特性量的测定、对利用该方法能满足要求的核查以及对有效性的声明。 注3:确认通常是成本、风险和技术可行性之间的一种平衡。许多情况下,由于缺乏信息,数值(如:准确度、检出限、选择性、线性、重复性、复现性、稳健度和交互灵敏度)的范围和不确定度只能以简化的方式给出。 |
ISO 15189:2012中的要求 | 5.5.1检验程序的选择、验证和确认 5.5.1.1总则 验室应选择预期用途经过确认的检验程序,应记录检验过程中从事操作活动的人员身份。 每一检验程序的规定要求(性能特征)应与该检验的预期用途相关。 注:首选程序可以是体外诊断医疗器械使用说明中规定的程序,公认/权威教科书、经同行审议过的文章或杂志发表的,国际公认标准或指南中的,或国家、地区法规中的程序。 5.5.1.2检验程序验证 在常规应用前,应由实验室对未加修改而使用的已确认的检验程序进行独立验证。 实验室应从制造商或方法开发者获得相关信息,以确定检验程序的性能特征。 实验室进行的独立验证,应通过获取客观证据(以性能特征形式)证实检验程序的性能与其声明相符。验证过程证实的检验程序的性能指标,应与检验结果的预期用途相关。 实验室应将验证程序文件化,并记录验证结果。验证结果应由适当的授权人员审核并记录审核过程。 5.5.1.3 检验程序的确认 实验室应对以下来源的检验程序进行确认: a) 非标准方法; b) 实验室设计或制定的方法; c) 超出预定范围使用的标准方法; d) 修改过的确认方法。 方法确认应尽可能全面,并通过客观证据(以性能特征形式)证实满足检验预期用途的特定要求。 注:检验程序的性能特征宜包括:测量正确度、测量准确度、测量精密度(含测量重复性和测量中间精密度)、测量不确定度、分析特异性(含干扰物)、分析灵敏度、检出限和定量限、测量区间、诊断特异性和诊断灵敏度。 实验室应将确认程序文件化,并记录确认结果。确认结果应由授权人员审核并记录审核过程。 当对确认过的检验程序进行变更时,应将改变所引起的影响文件化,适当时,应重新进行确认。 |
为了提供更详细和具体的指南,Eurogentest成立了一个工作组,包括临床和实验室科学家以及来自欧洲和美国质量保证和统计学专家。目的是开发一个用于确认的框架,它可以广泛的应用于实验室提高遗传检测服务的整体质量,并尊重施加的灵活性需求,例如地方的要求和法规以及如检测量和资源实际的限制。在最近研究中,Jennings等人已提供对FDA规章深入的讨论,以及对确认程序很好的评论。然而,对分子遗传试验的标准和实际指南的具体解释仍然缺乏。在本文中,我们提出了一种用于诊断用途的分子遗传试验的确认和验证的通用的方案。
本文是专门针对人类分子遗传学试验分析确认和验证过程从而提供ACCE框架中的第一个部分的工作细节。这些过程是为了确证特定的实验室过程或试验提供与预期诊断用途相一致的可靠性。分析确认/验证只涉及实验室过程,而不对试验建立的决定、临床确认、临床效用或试验的伦理、法律和社会的影响进行评价。特别是,试验的临床的相关性以及所选择的测量相对于诊断特定遗传疾病的适用性由专业的人员判断。
关于发展和确认的确切界限有许多的讨论,好的案例可用于不同的分类。为了简单,我们已经规定了明确的界限,将所有与试验应用的发展(即范围之外)和与试验准确度相关的参数的概念都放置于确认中。
这些范围的界限不应该用于对不同过程的不同重要水平的设定;为了用于临床,很明显适当的检测结果的关键在于建立有效的诊断试验。为此,我们概括了在开发阶段涉及的过程和应该考虑的重要因素的简单选择。
虽然我们也关心统计学和样本大小的适当应用,但本文不打算论述此方面内容,但诊断分子遗传学家的实用指南以帮助他们希望实施的试验的确认或验证的设计、实施、适当的报告。参考文献中已经提供了更复杂的统计学概念,但建议在有疑问的情况下征求统计学家的意见。虽然确认和验证必须仔细考虑,但是试验的实施也必须可实现的而不是负担过重。
虽然有许多关于确认的更加一般层面的文献,但是我们是试图确定和组织分子遗传诊断中确认/验证要求的组成部分,并最终概括了一些简化的统计学算法和解释。因为没有充分覆盖领域中知识、经验和情景,确认/验证指南有必要变得更加复杂,所以本文可以成为后续制定此指南的出发点。虽然这些建议主要针对分子遗传学检测,但我们相信原理和概念也适用于细胞遗传学。
1. 实施过程
1.1 开发
开发的目的是建立检测程序和大概显示检测程序对于检测的物质和期望的实验室程序来说适合预期目标。这涉及到确定将要检测的分析物、设计适当的方法包括试验特异性试剂(如引物),对照和检测流程。开发过程应该用于获取实验必要的经验,目的在于确定可能影响性能的重要参数、必要的对照检测和需要考虑的局限性。重要的参数的例子可能包括引物设计、已知的多态性位置、感兴趣区域G+C的数量、片段长度、将要检测的突变的类型和突变在片段中的位置。合适的控制措施可能包括阳性对照、阴性对照、无模板对照、重复检测以及质量评分系统的使用。因此,需要开发的数量将取决于检测程序的新颖性、一般水平(例如文献中)和实验室实验设备。举个例子,一个在测序方面具有较多经验的实验室开发新基因测序可能是简单的引物设计,然而建立一个全新的方法需要更广泛的调查。
1.2 用途的评价
在对试验进行确认之前,有必要确定特定的检测结果具有诊断性用途并且检测的是正确的分析物甚至只是正确的分析物。这可能涉及到,例如,确保引物没有在引物结合位点覆盖已知的基因多态性,而是特异地与感兴趣的靶位点结合。应该注意的是使用CE标志的试剂盒没有用途评价,仍然应该确保试验检测的是预期的合适的分析物,因为体外诊断器械(in vitro diagnostic device,IVDD)只承诺技术性能,并没有临床或诊断确认。在这个阶段应该考虑的其他三个重要概念如下:
1.2.1 选择性
方法在区分目标信号和其他成分有多好?例如,通过变性的聚丙烯酰胺凝胶分离的PCR产物用于检测与囊性纤维变性相关的CFTR p.Phe508del(p.F508del)突变,将也可以检测到罕见的p.Ile507del(p.I507del)突变,而不能将两者区分开。对于大部分基因检测,选择性问题可通过仔细设计(例如BLAST引物用于防止非特异性扩增)或应用改编的控制物和/或限制因素来很好的避免。
1.2.2 干扰
试验中存在影响靶序列检测的物质吗?如果有,导致的是反应不能进行还是出现不正确的结果?对于大部分基因检测,干扰物将导致反应失败(例如DNA样品中的肝素或乙醇用于稳定或提纯步骤)。虽然反应停止可能不会造成错误的结果,但当失败率太高将存在与使用和及时性相关的问题。对于干扰物质导致错误结果的情况,需要更多的注意以防止干扰物质,例如,对样品运行预备的质量检测或做更多的控制。
由于他们的复杂性,多通道尤其容易干扰,这将增加不正确的结果。对这种类型试验的确认和验证尤其需要,这不在本文的范围内。
1.2.3 携带(交叉污染)
这与来自以前或同时进行的分析物的残留的物质引进到试验中有关(例如通过污染的移液管)。应该常规使用严格的程序性预防来减小这种交叉污染。特别是对PCR前和PCR后区域的试剂和实验设备进行物理分开是关键。其他控制/预防措施可能包括使用无模板控制物和尿嘧啶-N-糖苷酶处理。
1.3 性能规范
一旦合适的检测程序已经建立好,就得判断是否存在关键参数充分的知识,必需如下:
(a)针对期望的目标,试验性能达到的合适的准确度水平:也就是,试验结果可以满意地回答临床问题,并考虑到测量的不确定度和(b)这种准确度水平是常规维持的。
需要的检测水平取决于合适的性能规范。这应该定义为实现特定水平准确度的所有检测条件及可以用于描述条件的检测参数,尤其是:(a)试验准确度的估计包括测量不确定度(例如置信区间);(b)需要控制措施来确保准确度日常维持;(c)对关键参数的限制将确保期望的准确度水平。
对于特定试验的确认,限制因素可能包括如DNA浓度输入或DNA怎样提取的详细信息。当一项技术正在被确认时,也可能存在物理参数,如PCR片段长度或G+C的数量相关的限制。应该强调的是只有在特定的重要参数下的特定限制条件下性能规范才适用,因此应该注意确保新试验在这些限制条件下。例如,假定一个用于突变检测的方法的性能规范(对于突变长度<300bp,G+C含量在25-60%的突变的灵敏度>95%)将不适用于涉及片段为400bp,G+C含量为70%的新的试验。
1.4 确认
当没有可用的合适的性能规范时,如新的试验或技术,需要全面的确认。这个过程涉及与“金标准”或可以无误差地给样品指定状态(也就是可以给出“真值”的试验)的试验进行比较来对检测性能进行评价。简言之,确认可以被看作判断我们是否是在“执行正确的试验”的过程。在医学遗传学领域,大部分完全缺乏参考方法或有证的参考物质,参考应该大部分是可获得的可靠的诊断方法。值得注意的是金标准不用来自单一的方法,不同的技术可用于不同的样品,有些情况下,真值可能代表了不同检测结果的综合。当然为了防止引入误差,处于确认阶段的方法禁止用于以上方法组合中。
确认数据可用于评价技术或特定试验(例如BRCA1基因突变测序)的准确度。通常,新技术的确认应该大规模实施,理想情况下,在多个实验室(实验室间确认),并包括对与特定技术相关的重要参数的更综合的调查以便更提高发现变异和干扰来源的机会。
1.5 验证
如果有可用的合适的性能规范,有必要验证新试验在实验室内满足此规范,这个过程叫作验证。简言之,验证可以看作是一个判断“试验正确实施”的过程。
验证应该通常适用于CE-标志的IVDD试剂盒,但是应该注意确保性能对于试剂盒期望的用途是充足的,尤其对于那些自证明的试剂盒。许多诊断性基因试验由IVD指令被划分为“低风险”,可以由厂家进行自我认证而不需要第三方评价。
其他验证应用场合可能包括用实验室已经建立好的技术实施新的检测(例如新的基因的测序)或者有来自其他实验室可用的性能规范,这种方法在其他实验室已经确认。在所有情况下,实验室有必要尽可能获得更多有关已经实施过的确认的信息。
1.6 确认和验证报告
确认和验证的计划、试验方法、结果和结论以及其他一些相关的详细情况(参见“结果报告”部分)都应该记录在确认文件中。另外确认计划和结果应该进行正式审核和批准。当在同行评议出版物中报告确认或验证时,强烈建议尽可能遵循STARD(诊断准确度报告的标准)。
1.7 性能监测(持续验证)
一旦方法确认已经被接受(也就是说已经判断其用途和准确度适合期望的诊断目标),将可以准备用于诊断。然而,这不是性能评价的终止。来自确认的性能规范应该被用于评价每批试验的“有效性”,这些信息应该以合适的时间间隔增加到确认文件中。许多情况下,随着时间累积的数据是最初确认额外的重要的信息,可以用于持续提高检测准确度评价和质量。持续的验证应该包括室内质量控制,室间质量评价和与试验或技术相关的不一致(适用的话)的结果。
2. 试验类型
确认的核心目的是显示试验的准确度满足诊断要求。所有试验本质上都是基于定量的信号,即使这种检测没有直接用于分析。例如,虽然检测异质性样品中特定线粒体变异明显是定量的,但在胶中呈现的条带却通常被认为是定性的结果。然而,条带的视觉上出现最终取决于出现的DNA分子的数量,即使这种定量的检测结果很好判定。试验本身的这些不同影响如何评估和表达准确度的估计。
本文中我们涉及到两种类型的准确度。判断基本的定量检测与真值的接近程度通常叫做“分析准确度”。然而,通常有必要根据定量检测结果来推断样品或患者。例如,如果凝胶中出现条带代表特定的突变,那么检测结果根据条带是否可见被划分为突变“阳性”或“阴性”。此种结果是由定量结果推断而来,但其本身却不是定量的。判断此种检测多久给一次正确的结果被称为“诊断准确度”。术语诊断准确度通常用于描述试验正确判断患者由于不同原因,包括不完全外显/修饰基因或简单的因为患者处于前驱状况,疾病状态(表型)有多好。这些的指南的目标是使实验室能够建立他们检测对于正确判断基因型有多好。基因型的临床解释不包括在本文中。因此,本文中术语诊断准确度将被专用于叙述试验正确鉴别基因型的检测能力而与临床意义无关。
我们划分了三种大的检测类型(定量的、分类的和定性的),并可以根据将原始的定量结果变为有意义的结果的解释的方法再分为5种类型。
下面的部分详细地讨论了每种试验类型,并针对每种案例提供了适当的检测参数的指南。不同试验类型的特征的总结和案例以及适当的检测参数和确认时机的建议如表2所示。
2.1 类型A-定量试验
对于定量试验,结果是个数字表示样品中特定分析物的量。这种类型可以是相对的定量,例如判断特定线粒体等位基因的异质性水平,也可以是绝对的定量,例如检测基因的表达量。无论哪种情况,定量试验的结果可以描述为连续的数字(两个界限值之间)包括十进制数。
需要分析准确度的两个组分:正确度和精密度来描述一个定量试验。正确度表示检测结果相对参考值的接近程度。典型地,每个点来源于多个检测结果,检测结果是取重复检测结果(去除离群值,如果必要)的平均值。
有两种常见的形式的偏倚。对于固定偏倚,试验结果与参考值相差相同的值,而与参考值无关。对于比例偏倚,偏差与参考值成比例。两种形式的偏倚可以同时存在(见图2)。
虽然偏倚的测量是有用的(见图3),但它只是测量不确定度的一部分,不能给出重复结果分散性的指示(也就是单独的检测结果的差异程度)。这种分散称为精密度,它提供了一个单一的检测结果代表若干重复结果的程度的指示。精密度通常以重复检测结果的标准差表示,但是以均值和置信区间(CI)表示给出的信息更多。例如,用于调查一种肿瘤中突变载量的试验的结果可能表示为7%(95% CI:5-10%)。
根据重复分析的处理和评价方式可以细分精密度。因此在术语的使用中存在一些可变性,然而为了实际操作,我们推荐基于ISO 3534-1和国际计量学词汇的下列方案:
重复性指的是由同一分析人员在相同的仪器、相同的条件、相同的地点,短时间内重复对同一检测项目检测结果的一致程度。因此重复性代表“批内精密度”。
中间精密度指的是在同一实验室一段时间内,考虑到实验室条件的正常变异,如不同的操作人员、不同的仪器和不同天,检测同一项目的检测结果的一致性。因此中间精密度代表“实验室内精密度,批间精密度”,因此是持续验证中的一个有用测量指标。
再现性指的是考虑到真实实验室条件中会遇到的更广的变异范围,包括不同的实验室。指。因此再现性代表“实验室间精密度”。
图2、偏倚的类型
每个图中的虚线代表理想的结果,所有其他的检查结果以其为参考
图3、用于定量检测的性能特征、误差类型和测量指标
实际上,实验室内确认将只考虑重复性和中间精密度,许多情况下两者可以通过单一的一系列设计好的实验完成。降低精密度表明存在随机误差。分析准确度组分间的关系、误差类型和用于描述它们的度量指标在图3中描述。
因为正确度和精密度代表2种不同形式的误差,所以他们需要以不同的方式对待。实际中,系统误差或偏倚可以用校正系数解决;固定偏倚需要加上校正系数,比例偏倚需要乘以校正系数。例如,具有5%偏倚的检测结果可以乘以100/105。相反,随机误差不能去除,但是它的影响通常可以通过检测适当数量的重复样品来减小从而达到可接受的水平。
本文的主要目的是理解上述描述的基本概念。然而,概述一些定量试验中在估计分析准确度时遇到的复杂情况是值得的。在分子遗传学,定量测量大部分通常是相对的,也就是,执行了两个检测,结果表示为比例(例如,线粒体突变的异质性比例)。在这种情况下,最好在同一试验中同时检测两个结果以减小比例偏倚的影响,因为试验条件很可能以相似的方式影响两个结果。
如果两个检测结果必须在不同的试验中进行的话,每个检测结果实际上是绝对的数值,必须与一系列与每个检测同时进行的校准标准进行比较。在这种情况下,重要的是评价每个检测/标准对,因为即使是较小的变异可能显著的影响整个分析准确度。这可以通过监测两个反应随着时间变化的效率来最有效的实现。
对于定量试验,尤其是那些需要绝对定量的,估计分析准确度最有效的方法是持续的在每批试验中运行一系列校准标准(校准曲线)。这种情况下,重要的是对线性进行评价。因为对于外推的结果不能评价精密度,所以高低值标准品要分别低于和高于预期的结果范围。如果可能,校准品应该溯源至绝对数值或认可的国际单位。
其他可能需要评价的因素包括检出限和定量限,其中检出限被定义为在背景噪声水平之上可以可靠检测最低分析物的量;定量限被定义为检测结果对分析物的改变仍然保持线性的极限值。
CLSI文件EP17-A中详细描述了这些限值的判断。对于检测结果接近这些界限值或在线性范围内有与临床相关的重要范围的情况,使用接近界限值的控制物进行持续确认是有用的。
应该注意到检出限有时指的是“灵敏度”;也就是说一种方法在大的背景下可以检测到怎样水平的特定分析物。在本文中应该避免使用术语“灵敏度”,因为它可能与“定性试验”部分阐述的灵敏度混淆(也就是试验正确判断出阳性结果的比例)。
可以看到所有简单的定量试验的分析可能是复杂的,建议寻求统计学建议来决定这些需要测量的因素,这也是实现它的最好的方式。
2.2 分类试验(半定量试验)
分类试验(有时也被称为半定量的)用于可以包括小数点在内的任何数值的定量原始数据被划分为有意义的结果的情况。例如,荧光毛细管分析可通过与内部标准的大小比较分析峰的位置,从而用于判断PCR产物(碱基对)的大小。此分析中的定量结果将包括十进制数值,但是产物的长度必须是碱基对的整数,一个片段的长度不可能是154.3bp。因此必须使用截断值来划分定量结果为有意义的分类。用于估计定量试验的分析准确度的参数可以以差不多的方式用于描述分类检测的性能(见图3)。然而这里增加了点复杂性,因为原始的结果(定量的)被操作过(也就是,被转化为类别)。这些试验的分类结果保持定量的本性(即使这与定量的原始数据有区别),实际上,正确度和精密度可以分类的水平也可以原始结果水平确定。根据分类的数目和类型以及已知的结果准确度设置的重要性水平,我们将分类试验划分为两个亚类(见图4)。
2.2.1 类型B-分类试验
这个组的检测结果有不限的分类,如前面的例子。这种情况下,每个截断值形成了一个分类的上界和接下类分类的下界,这样所有结果都可以分类(除了那些失败的结果)。通常,这种类型的检测可接受的准确度水平没那么严。精密度的估计可以在开展前执行(例如±1bp),而正确度需在每次实验中运行标准曲线(也就是标准尺寸)。
2.2.2 类型C-分类试验
当预先定义的分类数量是有限的,如等位基因拷贝数的判断,准确度倾向于严格,通常需要更加决定性方法。能呈现最多信息的表示这种类型试验的准确度的方式是特定结果(定量的)落在特定分类的可能性。因此截断值被定义在特定水平的可能性,典型的是95% CI,这也意味着每个分类有其自己独特的上下界值,而两个分类区域间的结果将被划分为不可报告。
通过竞争假设检验可以将结果分配到适当的分类中。例如,用于判断等位基因拷贝数的试验有三种结果表示:正常(2n),缺失(n)和重复(3n)。比值比p(2n):p(n)和p(2n):p(3n)可用于设定值(见图5)。应该注意嵌合体变异导致中间值;嵌合体的检测应该在定量检测阶段就考虑。这种方法的好实例在MLPA电子制表软件分析说明书中有描述,说明书可在NGRL(曼切斯顿)中免费获得。这种类型的试验,准确度的确认是主要通过持续地在实际检测中运行重复控制试验来判断特定批中观察到的随机误差的程度。
2.3 定性试验
这是分类检测的极端形式,只有两种分类结果:阳性和阴性。这种二分类可以基于定量结果的截断值,如逢高或代表峰形状的确切值,或者是分析人员直接的定量观察,如出现峰或没出现峰(后者,如在“试验类型”部分讨论的,潜在的数据通常本质上是定量的,即使没有实施正式的定量)。对于准确度,根据真值(参考值),分类可以是正确的或者是错误的。一个简单的列联表可用于描述四种可能的结果(见表3)
图4、(a)类型B分类试验用于判断PCR片段的大小。每个分类有一个上界,它也是下一个分类的下界。箭头标记的结果是不精密的,但落在给定的准确度(±1bp)范围内。(b)等位基因定量的类型C分类试验。每个分类(阴影部分)尤其唯一的上界和下界截断值。结果落在两个分类之间被划分为不可报告(用箭头标记)。剂量系数(DQ)0.5代表样品中存在缺失的等位基因,1.0代表正常,1.5代表样品中有重复的等位基因。
图5、多重连接依赖性探针扩增检测外显子拷贝数(类型C分类试验)。剂量系数(DQ)=相对高的检测峰与对照峰比较值。DQ=0.5代表外显子缺失,DQ=1.0代表野生型,DQ=1.5代表外显子重复。DQs的总体分布以阴影部分的95%置信区间显示。结果落在两个分类之间为不可报告。
图6、用于定性试验的性能特征、误差类型和测量不确定度的关系
图7、(a)灵敏度和特异度的关系。图中显示了原始定量结果用于定性试验的频率分布。实线代表金标准阴性(野生型),虚线代表金标准阳性(突变)。使用单一的截断值将结果划分为阳性或阴性将导致假阴性和假阳性。(b)截断值的位置。将截断值设置在更多阴性结果分布的右侧将导致小的假阳性率但是高的假阴性率(阴影部分),当截断值移动到左侧,假阴性率将降低,但是假阳性率将会增高。(c)使用两个截断值。使用两个截断值可能同时减少假阴性率和假阳性率。这种情况下,处于两个截断值之间的结果可能被划分为检测失败或留下来做进一步的分析。
定性试验的诊断准确度可用两个分量来描述,两者均可以从列联表中的数值计算出来:
(1)灵敏度:阳性结果被试验正确识别出的可能性。
灵敏度=TP/(TP+FN);
(2)特异度:阴性结果被试验正确识别出的可能性。
特异度=TN/(TN+FP)。
另外,整体的准确度可用总的真值结果数占总结果数的比例((TP+TN)/(TP+TN+FP+FN))来描述,虽然,实际上这个参数很少使用。与定量检测相比(见图3),定性检测的准确度的组成部分描述在图6中。
灵敏度和特异度之间存在相反的关系(见图7)。更加严格的截断值用于减少假阳性(也就是增加特异度),假阴性的可能性将增加。因此,一个理想的检测的表征必须在需要的结果和诊断性结果的背景下考虑。例如,实验室用于突变检测的程序通常包括初步筛查以判断哪个片段有突变,然后通过测序进行第二次确证试验用于描述出现的突变。在初步筛查时,为了防止漏检出现的突变,灵敏度比特异度更重要。较差的特异度的唯一结果是增加了确证测序的工作量。很明显此种缺乏特异性的限制是可以接受的,即使是基于成本和效率。
对于灵敏度和特异度均重要的情况,最好使用两个截断值来减小假阳性和假阴性率。这种情况下,处于两个截断值之间的结果可能被划分为检测失败或留下来做进一步的分析。
2.3.1 类型D-定性试验
许多情况下,特别对于突变筛查方法,有必要用一个定性的描述来区分单个正常状态(阴性结果)和任何数量的突变状态(阳性结果)。虽然正常状态的定量结果期望是正态分布,阳性结果将不是,因为他们包含了许多不同的突变(已知的和未知的),每个突变有他们自己的分布(见图8b)。虽然理论上仍然可以用基本的假设检验来判断一个结果不正常的概率,但是竞争假设检验不能使用,因为不可能知道所有可能突变的定量结果的均值(除非他们均进行了检测)。因此这种情况下最好在实施确认之前使用适当数量的阳性样本(也就是已知突变)和阴性样本来评价准确度(参见“研究设计”部分)。
2.3.2 类型E-定性(二态的)试验
这种情况下,试验被设计成只检测分析物的两种状态(例如特异性SNP基因分型试验),每个状态的定量结果期望是正态分布(图8a)。这种情况下,结果可以通过类型C分类检测部分描述的竞争性假设检验被分到适当的分类中。此外,这种模型可用作持续确认方法,减小确认实施的需要。检测准确性也可用灵敏度和特异度来描述,并给出具体的截断值。这种方法在实施前将要求更严格的确认(参见“研究设计”部分)。
图8、(a)真实的二态试验。只能检测到分析物的两种状态:实线是野生型和虚线是突变型。竞争假设检验可用于确定结果是野生型还是突变型的相对概率(比值比)。(b)随意的二态试验。分析物有许多不同的状态;一种野生型(实线)和5种不同的突变型(虚线)。突变状态基本上不能从野生型中分别出来。假设检验可用于估计结果不是阴性的可能性,但不是阳性的可能性。
2.4 测序
直接测序(目前,通过毛细管电泳荧光双脱氧-终止测序)是广泛临床遗传试验选择的方法,并被广泛地认为是鉴别和表征DNA变异的“金标准”(参考)方法。因此,通常不可能开发出一个适当的参考用于新的测序试验的比较性确认。这种情况下,建议将确认以验证的方式处理,即用的新的方法测序可以达到要求的标准。应该考虑的因素包括证实新的检测能够特异性结合到感兴趣的区域(也就是BLAST引物和检测序列);等位基因被正确的扩增(也就是确保引物结合位点没有SNP);在整个感兴趣的区域产生的测序数据与合适的质量一致(例如,在整个感兴趣区域监测PHRED分数)。重要的是注意:因为测序方法可能不同,例如用敲除法、热循环机制或是单向还是双向测序进行分析,确认方案应该根据应用进行仔细调整。这在一种新的测序方法从其他实验室引入时显得尤为重要,因为大部分实验室将有他们自己特别的测序方法,并且不太可能与当地的方法相同。
与其他的试验一样,如果可能,定期参加室间质量评价(EQA)是重要的。对于测序,可能在技术水平上进行而不是疾病-特异性方案。例如,欧洲分子遗传实验质控网(EMQN)组织的MSCAN和SEQ DNA计划。
3. 实验设计考虑的因素
3.1 结果外推(确认限制)
确认的结果可适用于它的直接范围之外,然而一些基本原理需要适用于这种外推。让我们来看一下在一段特定的基因(5000bp)检测100种不同的突变的筛查技术的确认的结果是灵敏度≥97%(95% CI)。这在实践中意味着什么?
在感兴趣的区域只有很小数量的可能突变是实际覆盖的,在5000bp中有15000种可能的单个碱基替换,实际上还有无限制的插入/缺失突变。如果在确认中只检测了替换,估计的灵敏度只能适当被考虑用于这些类型的突变。然而,假设所有不同的类型的突变都广泛地包括在确认中(例如,所有可能的核苷酸置换、不同长度的插入和缺失等),那么说在这个基因中使用这种方法进行突变筛查的灵敏度≥97%(95% CI)是合理的。
一般来说,外推可通过定义一系列对成功的检测结果重要的参数来限制。也就是如果突变类型被认为是给定的检测获得正确结果的重要的因素,那么需要在确认中包括尽可能多的不同类型的突变。同样,如果模板中G+C的含量被认为是关键因素,确认只适用于确认中覆盖的G+C含量范围内的片段。这意味着一种技术的确认可以适用于新的基因,即使确认仅仅在其他基因中执行,假设在新基因中进行的检测落在确认中的关键参数范围内(很明显,在这种情况下,关键是确保扩增的是正确的片段)。在这种情况下,基因本身不是关键因素。
根据以前的经验和正在确认的技术的专业知识,应该在开发阶段鉴别和评价潜在的关键因素。然而,随着一项新技术通过了主要的确认,应该尝试通过评价尽可能多的不同的潜在因素来鉴别出关键的因素。实验室间再现性的评价也是建议的(参见“类型A定量试验”部分)。
3.2 样品选择
确认结果外推的限制根本上是由样品的选择限制的,而样品的选择本身通常由阳性对照物的可获得性限制。为此,确认报告中明确详细的样品概括,附带对这些特征与检测性能的关键参数的关系的分析。
考虑到结果外推的需求或要求,应尽可能选择广泛代表结果范围的阳性样品(突变)。这将取决于确认的试验的目标。例如,突变筛查方法的确认中应该包含尽可能多的不同的突变。由于这个原因,选择实际致病的突变/变异用于确认通常不是重要的,因为这与它们是否将会被检测出来没有关系。应该注意的是在涵盖同一扩增子上多个相同的突变将不会增加确定灵敏度的研究的效能,因为对于灵敏度来说,每个重复不会被认为是不同的。纳入一些存在潜在混淆变异的例子(也就是说,是否可能在一个包含某个相同多态性的片段中发现突变?)是有用的。
通常期望涵盖一些包含代表对检测中技术重要的参数变异的可能范围的突变的样品。例如,一项依赖异源双链核酸分子或融化的技术的重要参数包括片段中G+C含量,片段中突变的位置以及实际的核苷酸改变。
有时候,特别是当一项新技术时,样品的可获得性的当地限制可能迫使实验室间合作来收集合适数量的样品,从而获得诊断性确认要求的效能。
3.3 样品量(个数)
确认中使用的样品量决定了它的统计效能,这是一个用于测量确认结果有多可信的指标。因此确认的样品量最终是决定检测的分析用途的最重要的参数之一。遗憾的是,定义特定样品量大小的明确的指南实际上不能提供,因为要求太依赖于许多各种不同的因素,包括试验的本身和性能、关键参数、实际中试验将如何使用以及临床应用中要求的置信区间。用于确定样本量的许多给出了某些输入标准(如置信区间)的工具在网上可以免费获得。
CLSI提供了许多评价方案。虽然这些工具将给出需要的样品量的有效估计,但是其限制因素往往是合适的对照样品的可获得性,即使是在要求没那么严格,因此样品量更小的验证阶段。在这种情况下,关键是理解使用给定的样品量与用这种样品量获得的置信水平如何影响检测的用途的关系。建议寻求统计学建议并应该在临床用途背景下进行审核。
无论样品的可获得性或确认的结果如何,在确认文件中准确地记录所有的细节,包括置信水平和任何决定的基础是重要的。
3.4 定性试验
3.4.1 估计效能
对于定性试验,有个笨拙的有用的规则可用于估计给定具体样品量的研究的效能。这可以用下面用于基因筛查的两种定性方法的确认来说明:
(a)用30种不同的突变来确认
(b)用300种不同的突变来确认
如果在两种确认中,所有的突变均被正确地鉴别,那么试验的灵敏度将是100%。然而,我们可能对确认(b)的结果更加自信,因为检测了更广泛的不同的突变。这种不同与某个技术不能检测出的突变已经通过随机的样品选择排除在确认中的置信度相关。这种问题涉及统计中抽样误差。对于定性试验,目的是确定可以提供用于判定对于特定应用具有期望置信水平的灵敏度和特异度的足够的效能。
精确的计算是复杂的,但为了实际操作,“规则3”提供了根据样品量对效能进行足够准确的估计。对于95%的可信度,在样品量为n的确认中不能看见的事件的可能性是3/n。利用上面提到的例子阐述“规则3”的使用如表4所示。
分子遗传试验,技术往往具有很高的灵敏度,确认的目标通常是灵敏度接近100%,灵敏度不能达到100%的试验通常被认为不适合诊断应用。虽然如果给出足够大的样品量将可能发现假阴性,但是这种期望意味着使用“规则3”计算的样品量通常是可以产生要求的结果的。
实际上,“规则3”对于n>60的研究将给出非常准确的估计了;低于60估计变得过分谨慎,这对于诊断不是一件坏事。这种规格对于比例均适用,因此它既可用于灵敏度也可用于特异度。
3.4.2 研究设计
正如我们所看到的,确认数据的效能与样本量有关。阳性样品(突变)的数量将规定灵敏度估计的效能,阴性样品(正常的)的数量规定了特异度的效能。为了最多的应用,包含的突变和野生型样品量相当是足够的,这将会对灵敏度和特异度产生相同的效能。
实施确认时不知道每个样品的实际状态(即盲分析)是关键,特别在分类试验和定性检测中。为了估计系统误差或偏倚,还应该考虑抽样顺序,实际操作中应该尽可能随机。实验重复(例如通过复制品)可能也是有益的用于确保覆盖所有要求的结果。虽然这对于确认结果不是关键,但重复已失败的分析可以节省时间。另外,这些数据可用于确定精密度(重复性和/或再现性)。
4. 结果报告
在实施前阶段和持续验证阶段,全面清楚的文件化确认都非常重要。当报告确认试验的结果时,重要的是包含诊断准确性估计的来源,包括置信区间和所有可能影响这些估计解释的详细信息,包括:样品排除标准;样品的性质;参考方法的详细说明;技术细节;失败的处理;检测过的关键参数;设备详细说明。
4.1 准确度估计的报告
4.1.1 定量和分类试验
对于所有报告了准确度估计的情况,也应该给出用于估计的一些试验的置信度。用于定量试验的置信度本质上是精密度。最有效的表示方法为重复检测的均值带上置信区间。下面是计算置信区间的简单指南:
(1)计算重复测定值的均值(M)
(2)计算 重复测定值的标准差(s)
(3)计算标准误SM=S/(其中N=重复测定值的数量)
(4)计算自由度,d.f.=N-1
(5)使用Student’s t表找到d.f.对应的t
(6)置信下限=M-(t×SM)
(7)置信上限=M+(t×SM)。
对于全面讨论定量试验的不确定度的表示,参考欧洲认可协作文件EA-4/14。
4.1.2定性试验
当定性试验的准确度估计时,检测灵敏度和特异度的测量对于他们本身来说不是有用的数据,因为他们只跟确认中检测的特定样品有关(例如,金标准阳性被正确识别的比例)。为了将估计应用于更广的人群并让确认结果在实际中与其他结果相比较,必须给出置信区间。表5给出了具有不同样品量但检测灵敏度相同的3种实验的结果的案例。很明显拥有更大样本量的实验C的置信区间更小。
这种模棱两可在诊断性准确性报告中非常常见。最好的情况下,它们会阻碍不同确认实验的实际比较;最差的情况下,它们会提供误导诊断信息,从而对患者医疗造成潜在的严重后果。
为了改进这种情况,准确度的估计应该总是基于有效的计算和给出适当的置信区间。例如95%的可信度的高低界值,其中95%的可信度是针对广泛人群的灵敏度/特异度。
对于检测灵敏度和/或特异度是100%,样品量大于60的案例,用“规则3”确定置信区间足够准确。只有置信下限需要声明,因为上限是100%。
重要的是注意:本文中的“规则3”只对所有突变均检测的情况有效。对于检测的诊断准确度小于100%的情况,需要更加复杂的统计学方法来计算置信区间。建议的确切方法是基于二项分布,因为置信区间接近100%时需要倾斜以避免置信上限大于100%。方法的详细解释以及在Microsoft Excel中计算的指南在NIST工程统计指南网站中可获得。对于诊断准确性低于100%的案例,建议咨询有能力的统计学家。
参考文献
[1] Haddow JE, Palomaki GE: ACCE: a model process for evaluating data on emerging genetic tests; in Khoury M, Little J, Burke W (eds): Human Genome Epidemiology: A Scientific Foundation for Using Genetic Information to Improve Health and Prevent Disease. Oxford University Press: New York, 2003, pp 217-233.
[2] EuroGentest, EU Contract No.: FP6-512148, http://www.eurogentest.org.
[3] Jennings L, Van Deerlin VM, Gulley ML: Recommended principles and practices for validating clinical molecular pathology tests. Arch Pathol Lab Med 2009; 133: 743-755.
[4]王治国主编. 临床检验方法确认与性能验证.北京:人民卫生出版社,2009年 12月.