临床肿瘤学和遗传学分子检测方法的确认

作者:何书康 王治国
2021-12-16

北京医院 卫健委临床检验中心 —— 何书康 王治国

 1. 概述

法规要求强制临床实验室确定和/或证实用于患者检测的每种检验方法的分析和临床有效性。这样的确认要求对于确保安全有效地使基因检测用于其预期用途是必要的。此外,重要的是实验室要熟悉试验的临床效用,以确保试验对疾病的诊断或遗传状态的确认做出可测量的贡献。有关更详尽的讨论,参考美国医学遗传学学院(ACMG)临床遗传学实验室标准和指南的确认章节以及CLSI文件EP15。


对于本文的目的,验证研究的目的是证实制造商家已经建立的性能规范,而确认要求实验室建立通常是由制造商建立的检测方法的性能特征。


确认和验证过程的复杂性,包括对这些过程应建立的参数取决于检测方法的 类型。经过美国食品和药物管理局(FDA)许可或批准的或经过CE认证的受监管的商品化体外诊断(IVD)器械试剂盒只需要进行验证,而实验室自建试验(LDTs)或修改的商品化体外诊断试验需要更复杂的确认过程,如下面所述。FDA许可或批准的检测系统是指FDA通过上市前通知(510(k))或体外诊断使用上市前的批准过程许可或批准的检测系统。除非另有说明,这包括受FDA上市前许可或批准豁免的检测系统。


验证和确认活动不仅应关注系统的试剂组分,还应该关注辅助工具和软件。不同的操作者和多个批号试剂可能会在检测过程中引入变异需要评价和记录。所有的验证和确认研究都应该清晰记录并且可用于监管检查。在建立了方法的性能特征后,实验室还应该通过执行常规的质量控制和能力验证,记录操作者的能力,进行仪器校准和根据临床发现修改结果来持续评估检测方法的质量。额外的信息,请参考CLSI文件MM17。


本部分描述定性和定量分子检测的分析和临床确认的一般考量。每个实验室应该建立自己的确认实验方案。


 2. 体外诊断器械,改良的体外诊断器械及实验室自建立试验

2.1 分子诊断器械的分类和标签(美国)

尽管确认的目的对于任何类型的试验是一致的,不管是体外诊断,改进的体外诊断还是实验室自建的试验,但是范围和具体的确认计划通常会根据试验的监管状态而有所不同。


对于每一项非豁免试验,CLIA法规要求实验室建立或验证它们的分析性能,并且在引入患者检测之前确定校准和控制程序。在报告患者试验结果之前,引入未修改的,FDA许可或FDA批准的检测系统的实验室都应该:

(1)证明厂商所建立的精密度,准确度和试验结果可报告范围的

性能规范都是可重现的;

(2)验证厂商所提供的参考区间适用于实验室患者群体。


体外诊断试验,不管是FDA许可(参考510(k)或上市前通告)或者FDA批准的(参考上市前批准),都由试验制造商对于特殊的目的在规定的条件、控制和过程下已进行了确认。制造商应该描述和提供试验的特定目的或者“预期用途”,连同检验程序、控制、性能特征和局限性,通常以产品包装说明书或者标签的形式进行呈现。


如果在医学实验室按照制造商说明书规定的目的使用体外诊断试验,验证的范围就是通过客观的证据来证实或验证在特定的实验室环境中满足规定的分析和临床性能特征。


当实验室改进体外诊断试验以满足其特定的临床检测要求时,则确认计划根据改进内容将更加广泛。其中一些修改可能是次要的,其他可以是广泛的。修改的例子包括,但不限于:

○ 将试验应用于不同的患者人群

○ 使用额外的或替代的标本类型

○ 使用不同的样品准备方法或者改变检验程序的步骤

○ 使用不同的仪器或软件版本

○ 应用不同的截断(cutoff)值


经过任何的修改后,原来体外诊断试验的分析和临床规范可能不再适合于试验的预期用途。因此,修改后的体外诊断的确认应该首先评估和重新定义与引入修改有关的任何试验的参数和规范,并且确保这些内容符合试验的预期用途。例如,如果除了原体外诊断试验已确认使用口腔拭子外,还要使用全血样品,则需要重新定义分析灵敏度和特异性等参数。确认计划应该对所有的规范进行证实,基于修改的新定义(如:额外的标本类型或者患者群体),和/或最初定义的(如:制造商最初确定的标本类型或者患者群体)。


实验室自建试验的确认可能是最复杂的,因为没有先前规定的和已确认的性能要求和规范。首先,确认计划应该评估试验设计,包括临床效用、检测指标、目标人群、标本类型、检测程序、结果报告、对患者管理的影响和试验的局限性。其次,计划需要建立和定义所有分析和临床参数和性能规范(可接受准则),以适当地支持试验设计以及确保持续的实验性能所必须的质量控制措施。最后,计划必须实施对试验目的所有规定的规范进行证实。


实验室应该为正确度、精密度、分析灵敏度、分析特异性、试验结果可报告范围、参考区间以及当引入下列情况时试验性能所要求的其他性能特征建立适用的性能规范:

○ 实验室修改FDA许可或FDA批准的检测系统

○ LDT或FDA传统上行使执法自由裁量权的检测系统

○ 没有制造商提供性能规范的检测系统


实验室应该根据如上文所述确认或建立性能规范确定检测系统的校准程序和控制程序。


在过去,大多数LDT是使用已经建立良好的检测方法的试验,包括只使用规定的成分和仪器,由训练有素的专家在当地的环境中进行,与患者接受治疗的地方较近,涉及到简单的软件和计算,但是由专业医学专家进行解释。传统上,FDA已对这些试验行使酌情监督(即执行酌情权),接受实验室检查人员的评价作为LDT性能的充分验证。最近,LDT在技术上变得更加复杂,对许多突变或多种疾病通常是多重性的,并且在结果报告中对风险评估进行了复杂的数学计算。此外,一些商业参考实验室正在使用他们经CLIA认证的设施中准备LDT来检测来自更多地方的患者,弱化了实验室检测人员和转诊医师之间的联系。2010年,FDA审查了过去的酌情决定政策并决定应该审查和修订对LDT监督,以确保复杂的检测由于太复杂而实验室检查人员无法进行充分的审查,实际上应该接受FDA审查以获得许可或批准,这取决于试验结果代表患者安全问题的风险。


呼吁修订LDT监管框架是当前联邦机构,检测实验室和试验制造商之间争论的话题。目前有针对审查和实施的公开会议,评论和建议的计划,来自专业实验室组织的立场声明,以及患者倡导团体的观点。初步的迹象表明,建议的法规监管将包括根据患者安全风险程度描述为高中低,试验在技术和解释上的复杂性以及检测的临床适应症将试验进行分类。这些是与FDA用来评价医疗器械的标准相似。预计FDA将在发布最终规则之前为LDT法规监管提供指南性草案。


2.2 欧洲联盟和欧洲自由贸易联盟

欧盟医疗器械的分类在理事会指令93/42/EEC的附录IX中概述。从低风险到高风险,基本上有四种医疗器械。

○ I级(包括Is和Im)

○ IIa级

○ IIb级

○ III级


尽管通常是根据医疗器械的预期用途而不是特别的技术特征来对仪器进行分类,但是医疗器械的分类也将取决于一系列的因素,包括:

○ 该器械准备持续使用多久

○ 该器械是否具有侵入性或者手术侵入性

○ 该器械是可植入的还是活动的

○ 该器械是否含有一种物质,该物被认为是一种药用物质,并且

对器械的运行起到辅助作用


除了理事会指令93/42/EEC对于医疗器械的分类,IVD指令组(98/79/EC)还特别将体外诊断(IVDs)分成四类。这些分类也是按照增加感知风险的顺序如下:

○ 其他/一般器械:除列举在附录II和自我检测器械外的所有器械

○ 自我检测器械(没有列举在附录II中):厂家生产的供非专业人

员在家里使用,不包括在附录II中列举的自我检测器械

○ 指令附录II中列表B的器械:其中包括用于风疹,弓形体病和苯

丙酮尿症检测试剂和产品以及自我检测血糖的仪器

○ 指令附录II中列表A的器械:其中包括HIV I型和II型以及乙型,

丙型和丁型肝炎检测试剂和产品


在欧洲,医疗器械的授权是通过符合性声明来保证的。这份声明是由厂家自己发布的,但是对于Is,Im,IIa,IIb或者III类的产品来说,它必须由欧盟公告机构签发的合格证书予以核实。公告机构可以是公共的或者私人的组织,其已通过认可来确认仪器符合欧洲指令。I类医疗器械完全可以通过自我认证方式投放市场(条件是它们不需要消毒或者不用来测量功能)。


获得认证的医疗器械至少应在包装以及插页上有CE标志。包装也应该用一致的象形图和CEN标准化的标志来表示基本的特征,如使用说明、有效期、制造商、消毒状态、以及可重复使用的能力或仅供一次性使用说明。


 3. 临床实用性评估

临床有效性(clinical validity)指的是试验确定感兴趣的临床疾病以及正确地识别未患病个体的能力。在最好的情形之下,也会有试验的临床实用性的证据。临床实用性(clinical utility)是指试验结果在改善患者最终结局方面已证明具有价值,或者根据试验结果将会对医疗决策产生明确的影响(比如:不同的治疗或者不同的随访)。临床有效性通常是临床实用性的先决条件,但是高的临床有效性应并不总意味着高的临床实用性。分子遗传学试验的临床实用性指的是它确定诊断和/或为指导疾病管理或为特殊预期用途治疗过程中做出决策提供必要的信息的能力。在遗传学检测中,临床实用性可以说明一个特殊的遗传标记,突变或者与携带者相关的序列,疾病的易感性和疾病状态,或者是对药物治疗反应的预测。此外,临床实用性需要证明这种信息可以对患者管理的过程起到积极的影响。临床实用性应该通过设计良好的研究证明有效性和实用性来建立。证明临床实用性的责任不一定就属于实验室或者厂家。它可以从已发表的文献或专业的医疗实践标准中得到证明。临床实用性在实验室法规中可能没有特别的描述,但在CAP实验室认可计划分子病理学检查表中包括了这方面的文件。


选择感兴趣的目标的理由应该是完全合理的。在科学文献中应该充分地描述和完整地记录由试验检出的目标位点/等位基因/突变。然而,极其罕见的疾病是例外。患有罕见遗传病的人需要通过优质的遗传检测获得可靠的信息。美国国立卫生研究院(NIH)的合作、教育和试验转化(CETT)计划的目标是帮助促进罕见遗传病新试验的转化,并确保提供最可能的试验来满足社会的需要。CETT项目鼓励医学实验室和研究合作,并且支持在公共数据库中基因和临床数据的电子收集,并将这些信息用于新的研究和新的治疗的可能性。在将研究发现转化为基因检测以及为医疗健康提供者、患者和家庭开发教育材料方面已获了相当多的经验。CETT试点项目已不再接受基因检测开发的应用。可以在下面的网址(http://rarediseases.info.nih.gov/cettprogram/default.aspx)了解试点项目的评价和额外的信息,或者直接联系CETT项目协调者info@CETTProgram.org。


当评价临床实用性时最常用的标准是ACCE模式:分析有效性(analytic validity)、临床有效性(clinical validity)、临床实用性(clinical Utility)以及相关的伦理(ethical)、法律和社会影响。在这个模式里,分子遗传学的临床实用性参数被概括为:

(1)疾病的自然史;

(2)干预的可用性和有效性;

(3)检测完成之后可能的副作用;

(4)管理服务所有方面可用的资源(教育和专门知识)。


临床实用性的文件应该包括以下内容,如果适用:

○ 在数据库中记录目标位点的图谱位置,比如国际人类基因图谱

研讨会、基因图谱(Geneatlas)、基因库(GenBank)、NIH基因组数据库或国际人类细胞遗传学命名系统。

○ 信息,如缺陷的类型,等位基因突变的数量和类型,被检出的

靶核酸的序列。

○ 目标的多态性和保守程度(如果有关的话)。应该检查SNP数据

库来确定突变体。

○ 试验的目标人群。应确定不同人群疾病的患病率和在目标人群

中试验的灵敏度。

○ 疾病的人群分布、缺陷发生率、突变率、以及任何已知的变异

在亚群之间(如:地理、种族)的频率分布。

○ 临床疾病表达的遗传基础和相关机制,包括通过家庭研究确认

的遗传模式、遗传异质性、降低的外显率、可变的表现度和延迟发病,遗传、环境和其它的修饰物,以及引起疾病表达的任何其他不寻常的现象(如:单亲二倍体[UPD]、印迹、微卫星/三联体扩张、嵌合体、线粒体基础)。

○ 确定靶基因突变谱。如果相关的话,应该检查疾病和/或基因专

用数据库(如:人类基因突变数据库[http://www.biobase-international.com/index.php?id=hgmddatabase&gclid= CMGF3tXU9qgCFVJ25Qody0IZRg])。


 4. 分析确认

分子方法产生定量数据(如:滴度,肿瘤中突变的等位基因所占的百分比,基因拷贝数,RNA转录物的折叠诱导)和定性数据(比如:DNA序列,突变的存在或者SNP)。因此,定量和定性的检测具有相似但不同的确认要求。在特定核苷酸位置的碱基调用被认为是一个典型的定性检测,其结果是“是”还是“否”,即是检测到或没有检测到突变。因此,虽然定性检测只有两个结果,但是这些结果往往是基于定量或半定量数据。


可以通过以下方式检出序列改变的存在:

○ 用凝胶电泳法直接显示DNA片段的迁移率

○ 使目标与探针进行杂交

○ 在患者样品中通过荧光信号显示等位基因是否存在


正如表格1中总结和下面所列出,定性检测的适当分析确认必须针对以下参数:

○ 准确度

○ 重现性

○ 稳健性

○ 分析灵敏度和检出限

○ 分析特异性

○ 携带污染

○ 试验结果的测量区间

○ 参考区间

○ 材料资格


对于具体的检测实例,请参考分子病理学协会分子诊断检测确认指南或者其他出版物。


QQ截图20180504162529.jpg


在开始进行确认之前,应该制定实验设计或科学实验计划。它应该描述控制,检测的患者标本类型和每个标本的重复检测。应仔细选择标本类型和提取方法,尽可能模拟患者样品的处理方式。此外,对于评估特定的参数应该提供每个计划检测的材料的足的量。如果特征化的患者标本不够,可以通过“掺加”或者对特定被测量已知是阴性的患者混合标本中加入高纯度的被测量可以制备检测材料。对检测性能也应设置可接受标准,来确保检测达到预期用途。


有时被忽略的确认要素就是对为建立的方法提供关键原材料的供应商进行评估。应通过建立良好的供应商资格过程来实现理解“一经出售概不负责”(让购买者当心)的概念。这一点在实验室使用完全依靠关键原材料质量的实验室自建试验(LDT)时尤为重要。在这个过程中,应该对供应商进行评估,看其提供所必须的试剂能否满足购买实验室要求的标准。对于购买了的每一种关键性材料应制定明确的书面标准和规格。这些标准的技术基础应在检测方法建立过程中明确,对关键的材料,试剂以及消耗品也是如此。例如,许多分子方法使用寡核苷酸作为PCR的引物。在购买前应根据序列、纯度和等级来规定引物的规格。根据检测方法,这些因素中的一个或多个都可能会对LDT的结果质量产生影响。LDT中的其他关键成分包括核酸纯化的材料,荧光、化学发光或比色染料,聚合酶,dNTPs, MgCl2 ,KCl和储存管。实验室应该意识到制造商并不会在每一次改变试剂的生产过程时都通知顾客。由于生产过程的改变可能会影响试剂的性能,所以最好对原材料进行检测,以确保在将它们合并到LDT之前满足关键的性能标准。最佳的质量实践包括向供应商提供每份材料订单的商定规格的副本。还应该根据供应商材料制备的技能和它们正在使用的质量管理体系对其进行评估。最后,建议对关键材料确定主要和备用供应商以确保供应不中断。对供应商资格的类似策略适用于参考实验室服务的选择。


4.1 准确度

通过使用已知基因型的样品以及将新检测方法的性能和已经建立的参考方法,这通常是DNA测序进行比对来评价准确度。分析准确度指的是试验结果与可接受参考值之间的一致性程度。通过从适当设计的方法比对研究中获得的数据集的不同的统计分析可以建立各种准确度要素(如:阳性符合率,阴性符合率,假阳性率,假阴性率)。想获得更多关于这些原则的讨论以及设计方法比对研究的指南,请参考CLSI文件MM12和MM17。这些CLSI文件概述的一般原则既适用于单个的目标,也适用于多重检测系统,特别是评估需要包括来自指定患者人群的标本。方法比对研究合适的标本数量取决于很多因素,包括但不限于,检测的复杂性、预期用途人群中靶物/等位基因的患病率、数据分析方案和参考方法已建立的准确度。然而,如果使用配对检验来比较两种分析方法,则建议至少分析30份样品,因为当样本数接近30时,样本平均值和标准差就接近总体平均值和标准差。


4.2 重现性

重现性指的是当操作条件不同时结果之间一致性的程度。在重现性研究中,应该检查所有可能的变异来源。对于给定的检测最常见的变量是操作者。另一个常见的变量是给定某一天用于检测的试剂批号或试剂组合。一般来说,任何每天或者每周会发生改变的变量都要检查其对检测重现性的影响。典型的计划是三个操作者分别在三天内使用不同的试剂批号进行检测。所有这些研究中的固定变量是所使用的检测样品盘。重现性是以在实验设计中包括的不同条件下进行的检测之间一致的结果的百分比来衡量的。


对于不同的被测量浓度,定量检测的重现性或精密度可能不同。因此,尽可能在确认中检测跨越大部分测量区间以及接近医学决定水平的浓度。精密度应该用量化变异的数字形式进行表示,例如CV或者偏离均值的标准差(s)。


评估定性试验或定量试验的重现性应作为使用临床样品进行分析确认的一部分。


4.3 稳健性

稳健性是指在试验条件给出微小的、有意改变,如时间的拖延,储存温度的变化,DNA质量或者数量的变化的条件下的精密度。当对检测中使用每个样品建立标本采集、处理和储存要求时,应该充分研究稳健性。这些评价的结果可用于设定检验前可接受的标准。


4.4 分析灵敏度和检出限

分析灵敏度应通过检测含有已知浓度被测量,其代表具有良好表征的基因型的适当数量样品的连续稀释来确定。对于给定的样品类型,检出限(limit of detection,LoD)指的是在实验室常规环境下,能在≥95%检测样品中连续地检出被测量的最低浓度。它定义了检测方法的分析灵敏度。灵敏度可能需要多个阈值效应来定义。例如,定义产生有效检验结果的最小数量的细胞和定义产生有效检验结果的最少的核酸数量是不一样的。另外一个例子,特别是对于肿瘤特有的遗传标志,对于在另一个细胞或者DNA种群的混合物内特定变异DNA标志是检测灵敏度的问题。符合这个标准的方法包括在正常细胞背景下监测癌细胞的微小残留,一些遗传疾病的嵌合遗传标记以及造血干细胞移植患者混合嵌合体模式的检测。有些检出限与DNA回收的效率和样品的局限性有关。从10个细胞中分离DNA并检测遗传标志与在100000正常细胞中检测10个肿瘤细胞相比具有不同的效率。


次优数量的核酸,尤其是过量,与单个分析相比,会对多重检测造成更大程度的错误基因型,并且一些检测系统多核酸比对其他更加敏感。根据使用的分析方法,实验室可能不会在执行检测前对所有患者的DNA进行量化,因此从将要使用的提取方法中确定核酸产量的范围并且确保这个范围和方法的要求是兼容的。研究还应确保正确地识别和检出基因型,当有地理或人群差异时,这是至关重要的。为了进行最优的统计分析,建议对每个浓度重复测定20次;这个重复的数量可能仅限于包括预测的检出限在内的浓度。


Probit回归分析可以用来评估测量的检出限。原材料中的核酸(RNA或者DNA)应该与临床标本中的被测量相匹配。应该对在医学实验室中进行检测的每种样品类型确定检出限。当难以获得足够数量的单个样品时,可以制备混合阴性样品或合成材料的基质并加入感兴趣的被测量。


也可以相对于空白限(limit of blank,LoB)描述检出限,其中LoB是当重复测定不含被测量的样品时预期发现被测量(分析物)的最高的表观浓度(见CLSI文件EP17)。空白限可以由从重复测定空白样品所得信号值的均值和标准差来建立(LoB = 均值空白 + 1.645s空白),以及LoD被定义为与LoB重叠的最低信号(LoD = LoB + 1.645s低浓度样品)(见CLSI文件EP17)。这样就可以确保空白样品不产生可能和低浓度被测量一样的分析信号。LoB最适用于信号放大方法。


4.5 定量限:测量区间和线性

除了检出限,对于定量检测系统还应该对定量限进行确认。线性是检测系统在给定的范围内,给出与检测样品中被测量浓度正比例结果的能力。测量区间的界限通常是定量限的上限和下限。低于或超出测量区间的值是不可量化的,但可以定性地评估。在精密度方面,需要对整个检测系统,即从核酸提取到检出和定量的线性和测量区间的确定。


测量区间通过随机检测不同浓度的被测量来进行确定。进行分析时所有的数据都要进行log10的转换。观测到的定量结果(y轴)和预期结果(x轴)绘图。通过回归分析确定预期值与观测值之间的关系。回归曲线符合直线的程度指标r或R2是系统线性的标志。用二阶或三阶多项式回归分析可以观察到最高的R2值。在这种情况下,如果所计算的线性和最佳拟合多项式回归曲线之间的y轴值的差值在可容忍限度内,则仍然可以推断出线性关系。


为了可靠地确定检测系统的测量区间,建议至少检测被测量五个浓度水平,每个水平至少重复测定三次(见CLSI文件EP06)。重复次数应基于所考虑的被测量浓度下检测系统的预期不精密度,并足以对每个水平的被测量浓度进行可靠的估计。用于制备检测材料的样品基质必须与被分析的患者标本相似。


分子遗传学的定量检测也包括半定量和分类方法,其可将数据划分为具有诊断相关性的类别。这其中的一个例子就是FMR1基因三重态重复扩增的测定。完整的关于分类分子遗传学检测的讨论可在Mattocks 等人文章中找到。


4.6 分析特异性

分析特异性被定义为测量程序只检测被测量的能力。它也指程序在基因组中将靶序列、等位基因或突变与其他序列/等位基因/突变区别开来的能力(见4.2节)。


适当时,通过对整个系统的评价,从核酸的提取到扩增和检出,对所有被测量确定分析特的异性。分析特异性的两个不同方面是干扰和交叉反应。


很多原因会造成污染、混合以及引入对后续扩增有干扰的物质,包括:

○ 不规范的采样

○ 缺乏样品稳定剂(适当时)

○ 在样品处理时的交叉污染

○ 感兴趣的疾病组织中包含了正常,非病变的组织

○ 来自所需样品之外来源的组织(如:在胎儿标本收集期间获得

的母体细胞)

○ 宫颈阴道取样残留的精子

○ 细菌

○ 内源性物质(如:血红蛋白,抗凝剂,残留样品处理或稳定试剂)


实验室应该为在方法建立和确认过程中可能的干扰物的影响做出解释。CLSI文件EP07详细讲述了评估干扰的研究。潜在干扰物的检测应该在临床环境中可能出现的最高浓度下执行。应该对包括其他同源序列在内的相关干扰物存在时特定的核酸检测进行解释。干扰研究可以通过向标本中加入解剖学取样位置可能出现的细胞类型或其它潜在干扰物的形式执行,比如血红蛋白,肝素或脂质。应该对每个检测方法中所使用的标本基质执行这些研究。


残留的试剂,如有机溶剂,洗涤缓冲液等,或残留的蛋白质,可能不能在提取过程中被充分去除。基于DNA差异盐析的提取方法可能会导致高残留盐浓度,这会干扰许多酶促反应。有时这个问题可以通过简单地稀释gDNA样品来解决,因为由污染物引起的干扰物效应通常比gDNA更容易稀释。实验室和制造商应该确定以及在何种水平(体积/体积百分比)提取试剂会对下游扩增产生干扰。


多重靶物突变盘内的反应性/交叉反应性可以通过特定的实验方案和通过相关研究获得的数据集的补充评估来建立(比如检出限,精密度,准确度)。由于多重检测同时探测一组被测量,因此可以使用经验数据集对所设计的方法所检测的组中的交叉信号进行评估。比如,在探测p.Phe508del和p.Ile507del等位基因的CFTR基因分型测定中,由于方法有呈现p.Phe508del“存在”信号的能力和呈现p.Ile507del“缺失”信号的能力,因此应该对检测结果为p.Phe508del纯合子的p.Phe508del纯合子样品进行检查。否则,需要使用其他方法进行自反检测以正确地确定基因型。


4.7 仪器和分析软件

在检测系统中使用的任何仪器或软件应分别对其进行独立的性能评估。器械评价很简单,例如验证吸管的精密度和正确度。更加复杂的器械和软件可能需要安装确认(installation qualification,IQ),操作确认(operational qualification,OQ)和性能确认(performance qualification,PQ)。许多生命科学制造商或者仅仅用于研究的系统常常会提供需要额外费用的确认包。然而,制造商提供的IQ,OQ和PQ确认包还需要最终用户检测开发者(例如:开发LDTs的人员)执行对于检测系统特定额外的PQ。这可以确保仪器设置对于特殊的检测性能来说是恰当的。对于一些遗传学检测方法来说这可能更加广泛。van der Stoep等人举出了一个确认的例子,对分子遗传学试验确定了仪器/软件PQ。在美国,对于FDA批准的仪器来说,需要有仪器确认的文件,因此,医学实验室不再对仪器进行重复确认。


4.7.1 携带污染

开放自动系统的用户应该将评估潜在的孔之间交叉污染(携带污染)作为提取设备的PQ的一部分。自动提取过程的确认研究可以设计成网格或棋盘图案,使得染料四面都被没有染料的孔包围。然后通过比色,可视化地或者荧光进行携带污染研究。如果下游应用是基于PCR,尤其是当在固有低目标物量上进行PCR时,在PCR扩增整个盘/阵列之后运行对照,其中样品和水对照交替进行,将会评估潜在的孔到孔污染。


4.8 数据评估

确定一个检测值的改变是否具有意义取决于整个系统的精密度和所有值围绕均值分布的形状。如果数值符合正态分布,那么可以使用参数检测例如Student’s t检验进行数据分析。如果数值不符合正态分布,则应该应用非参数检验或将数据进行转换,使之符合参数标准。可以使用诸如Kolmogorov-Smirnov检验的方法检查数据集的正态性。为了防止非正态分布数据,用户需要决定是否可以使用非正态检验,或者是否应该将数据进行log10转换再用参数方法进行分析。需要考虑分析的数据类型(例如,批内精密度,方法的比对)来确定适用的统计学方法。例如,如果对于因变量的Student’s t检验也适用于正态数据,那么就应该使用一个可比较的非参数方法,比如Wilcoxon配对检验。如果要对非正态数据进行转换,则必须使用适当的转换函数。一个例子就是对于有着大的潜在的测量区间的被测量(分析物)值进行log10转换。应该考虑样本大小,因为相对于其他检测(比如:临床化学分析方法)的成本来说,分子遗传学检测的成本通常会限制可以检验的样本数。对于小样本量来说(比如:<20个重复),由于很难确定数据是否符合正态分布,如果使用参数方法进行分析的话,则可能会导致结果出错。非参数方法非常适合小样本量,可能更适用。在CLSI文件EP05,EP09和EP15中可以找到用来进行批内不精密度数据计算以及与制造商的声明或者其它性能标准进行比较的公式。


 5. 临床确认

临床确认提供具有客观证据和高度保证的确证试验的临床性能特征支持其预期的用途。临床确认研究通常在代表检测使用环境的条件下进行前瞻性研究。然而,如上讨论,可能有这样的情况,不需要进行前瞻性研究而仅仅使用已发表的文献就足够了。试验的关键临床性能特征通常包括但不局限于:临床灵敏度、临床特异性、阳性预测值(PPV)和阴性预测值(NPV)。这些临床性能特征和特别的分析性能研究确保试验可以达到预期用途。


新的标志物/突变/基因型试验(例如:临床实用性还未充分建立起来的试验)的临床确认应该通过对基因型-表型相关性,临床cutoff值或者参考区间以及试验性能特征的确认来证明试验的安全性和有效性。


对于良好建立的标记物/突变/基因型检测(比如已经建立了临床效用的检测),可以使用公开的同行评审文献来证明临床实用性和确认。


临床确认的关键步骤一般包括:

○ 预期用途的定义,包括临床实用性和检测适应症

○ 记录临床确认将支持检验的预期用途的文献回顾

○ 在检测系统设计期间进行风险评估以评估对患者结果的潜在风

险。对已确定的风险提出缓解措施应作为临床确认的一部分进行评估

○ 相关临床人群的筛选

○ 适当的检测样品

○ 确定检验前条件和临床样品处理方法

○ 定义“临床事实”或者参考标准

○ 确定参考范围,比如临床cutoff值

○ 确定确保检测性能所需要的控制材料(比如:外部阳性控制)

○ 确定将使用的统计学方法,包括差异分辨

○ 确定可接受标准

○ 确定临床性能特征


5.1 基本的临床确认参数

用来对分子遗传学检测进行确认的重要临床性能特征包括临床灵敏度和特异性,阳性预测值和阴性预测值。临床灵敏度是指试验正确地识别患有疾病人员的能力。另一方面,临床特异性指的是试验如何正确地识别没有患病人员的能力。


阳性预测值指的是阳性检测结果正确反映疾病存在的可能性。阴性预测值指的是阴性检测结果正确反映疾病不存在的可能性。阳性预测值和阴性预测值是灵敏度,特异性和患病率的函数。


除了技术和实验室因素,对于遗传学检测来说,整个的临床灵敏度,临床特异性,阳性预测值和阴性预测值常常和突变频率,基因型-表型相关性或外显率密切关联。例如,在ACMG和美国妇产科学院的CF携带者筛查推荐下,一个含有23个突变的panel在德裔犹太人中有着94%携带者检出率,但是由于大量的不常见的罕见突变没有包含在推荐的panel中,这个比率在其他种族中并没有在德裔犹太人中那么高。因此,这个检测的灵敏度的上限是待检人群的种族或者民族血统的一个函数。与此类似,基因型-表现型相关性检测的临床特异性的上限。对于有着100%外显率的基因型来说,阳性结果是100%特异的。然而,如果一个基因型没有100%的外显率,那么阳性结果的特异性就没有那么完美了。对于实验室来说,回顾与基因型包容性,基因型-表现型相关性以及基因型流行率和外显率有关的文献和/或专业组织指南来更好地理解和记录试验的理论临床局限性是很重要的。


临床有效性也受疾病流行或疾病概率的影响。对于患病率低的病(常常是遗传性基因病的情况)来说,阳性检测结果的预测值或者阳性预测值比较低,但是用来排除疾病的阴性检测的预测值或者叫做阴性预测值结果则比较高。相反地,对于患病率高的病来说,阳性预测值高但是阴性预测值低。


经常通过实验室工作来确认/验证是临床灵敏度和特异性的技术/分析方面(比如:试验能够在临床样品识别与疾病相关的基因型的能力)。对于灵敏度,取决于所选择的参考或者比较方法,评估的性能参数可能是灵敏度,或者与序列分析有关的正确基因型相应的百分比,也或者是与对比检测结果有关的基因型响应一致的百分比。结果分析应该还包括分析/技术假阳性或者假阴性结果的确认和估计预期的方法失败率。


关于这些方法性能参数的详细分析和计算,请参考CLSI文件EP12和MM17。


5.2 标本类型和检测人群

成功的临床确认的一个关键因素就是临床样品集。


虽然首选的是预期的样品,但是来自样品库已经特征化的样品或者已用经过验证的方法检测过的存档样品也是可用的,尤其是那些已经在文献中建立了临床实用性和有效性的样品。对新鲜样品和库存样品检测的性能评估应给予特殊的考虑来确保样品对于检测的实际用途具有代表性。


样本量应该有足够的统计功效来检测每个标记物,突变或模式的临床重要性差异。应包括来自正常人群和来自每种病症、病症、突变、基因型或组的适当数量的样品。建议与统计学家协商确定适当的功效计算,以考虑影响临床有效性的许多变量,如疾病流行率,遗传外显率,遗传异质性和可接受的灵敏度和特异性。例如,当临床灵敏度是100%时,所有患病的人的检测都是阳性。如果疾病非常罕见,预测疾病的阳性结果值可能会较低,但是排除疾病的阴性结果值较高。应该包含每个样品类型的恰当的样品数量。如果疾病,病症,突变或基因型的流行率或者频率非常低,应该考虑构建替换的样品。当不能够构建或获得代表的罕见的标志物或突变的样品时,只要使用临床样品充分确定了更常见突变的性能,则这些样品的缺少是可以接受的。


应该对检测前因素,例如标本收集和处理方法、运输和储存条件(例如:抗凝剂的类型,新鲜或者冰冻),提取的方法或者输入DNA/RNA规范(如:完整性和纯度)进行规定、记录和验证。


为确保符合当地和国家的规定,应对临床确认研究中临床标本的使用进行内部评审和知情同意的评估,包括使用库存或存档的样品。

总的来说,应该考虑以下关于临床人群和样品类型的要点:

○ 选择(纳入和排除)正常和患病或目标疾病

○ 正常样品的数量

○ 对每个疾病进行确认的样品的数量

○ 将要确认的标本类型(比如:全血、外周血单核细胞、干血

斑、口腔拭子)

○ 对检测来说可能具有独特挑战的样品,比如嵌合体样品或者具

有潜在干扰多态性或突变的样品

○ 采集、运输、稳定性、储存和处理程序(如:特定的采集瓶/设

备、抗凝剂、新鲜或者冰冻、提取方法和/或输入核酸的规范)

○ 伦理委员会审查和知情同意


5.3 结果评估

应该明确定义确认的检测的“临床事实”。对于新的标志物/突变/基因型来说,“临床事实”常常是临床终点或者表型。例如,要确认CYP2C9基因中的一个新的突变体的临床实用性,基于这样的证据:具有特别等位基因的个体具有明确的独一无二的灵敏度或者对于药物或物质没有反应,相应的“临床事实”可能是测量主要由CYP2C9酶变体所代谢的药物或物质的改变的代谢率。这种类型的临床研究也应该确认临床cutoff值、参考范围,可以的话,还有临床决定点。


对于已经建立的标志物/突变/基因型,“临床事实”,或者更确切地说,事实的代表,可能是:

○ 标准参考方法,有时候是“金标准”,比如双向DNA测序,或

者Southern印迹杂交分析对三重态核苷酸重复序列大小确定

○ 另一种有着相似或者相同预期用途的良好特征的方法


当使用标准参考方法时,参考方法的检测结果就视为“真值”。检测性能将通过临床灵敏度和特异性进行计算和报告。新方法的诊断准确度通过与参考方法相比所阐释的一致性的程度来决定。也可以计算阳性和阴性似然比以及受试者工作曲线(如果测量的是数字结果)。


如果对于罕见的情况/突变/基因型,没有相应可用的标准参考方法或者相应的方法不实际,那么在临床确认中,就需要与具有相同或相似预期用途,良好确定的方法进行对比。在这种情况下,比较方法的结果可能是,也可能不是“真值”。因此,试验性能应该通过阳性和阴性百分符合率进行评估。如果可以的话,应该定义差异分析。


 6. 偏离

应该确认和记录来自确认计划中的任何偏差。建议对具有较大偏差的实验进行重复测定(如:样品量改变、扩增/检测改变、试剂偏差、体积偏差、可接受标准改变)。一旦确认,来自确认实验方案的检测方法的偏差可能需要额外的确认和恰当的文件记录。


 7. 确认中的局限性

任何研究都有其局限性。检测确认研究也不例外。为了确保结果的正确解释,应该对这些局限性进行记录。一些常见的局限包括但不局限于:样品选择(如:可用的样品数,确认中的突变/基因型与检测方法中包含的突变/基因型的对比)和参考/比对方法的选择。也要对确认中或者发表的文献中的试验的局限性进行分析和记录。


应该确定所使用的检测方法的任何局限或者禁忌症,包括对检测性能的准确度有负面影响的因素以及方法的技术局限。方法的局限可能严重影响任何分析方法的分析。对于方法的知识,包括引物和探针的位置,可以让用户预测局限可能会出现在哪里。


方法的内在局限性可能包含:

○ 方法学

○ 测定组分

○ 引物位置和序列

○ 扩增效率/反应动力学

○ 检出限

○ 与样品类型和储存有关的局限性

○ 样品处理的影响

○ 核酸纯化的方法

○ 导致不正确结果的技术局限性


样品或者患者检测结果的局限性可能包括:

○ 临床样品的可用性

○ 患者人群的种族

○ 引物/探针结合位点的突变

○ 未知或意外的等位基因

○ 未知的缺失或多态性

○ 样品中存在的抑制剂

○ 折中的样品

○ 样品中的DNA或细胞不足

○ 体细胞突变(嵌合体)

○ 有丝分裂重组

○ 微卫星不稳定性(MSI)


CLSI文件MM03,MM05,和MM17更详细地讨论了这些问题。


 8. 确认报告

在临床检测的确认或验证过程中实施的所有实验都应该总结在一份确认报告中。虽然这个文件应该在实验室检查期间提供,但也是一个非常有用的文件,用于在实施后出现技术问题时对检测进行故障排除。写一份可以作为确认报告模板的确认/验证实验方案也是很有帮助的。因为许多团体可能参与检测确认的性能和审查,所以确认实验方案的正式批准确保了所有参与方就手头确认过程的实质内容达成一致。在实施之后对测定的后续修改可以被添加到确认报告中,作为文件控制系统中的修订或作为专门提到初始确认报告的技术报告。


虽然确认报告的语言和风格是由实验室目录确定的,但下列内容构成了人类分子遗传学检验的一般性验证报告大纲。

○ 标题页:标题页面包括检验名称和指定评审人员签名批准部分。

○ 预期用途:这部分声明了诊断性检测的特定用途。它也应该包括任何为了达到检测性能的特定标准,比如预期可施用的特定人群或者样品类型,进行解释所需要的特别对照。这部分陈述还应该确认检测的结果是否应该和其它信息比如来自其它诊断检测的结果或者临床信息一起使用。

○ 文件的目的和范围:这部分总结了与所研究的基因座和/或突变,检测方法以及方法中所使用的患者样品有关的信息。

○ 检测方法总结:如果可以的话,在总结时,应该对分析方法和引物以及探针序列进行描述。应该对方法的一般项目和特殊分析进行描述,同时还包括检测的临床指征。这些信息也可以放在附录中。

○ 职责:此处,指定了确认、收集数据、记录、分析、校对以及报告产生的职责,也包括了审核人,其由实验室主任,负责临床工作人员关于新分析方法的培训的人以及负责储存确认报告的人(比如:通常是质量管理体系部门)。

○ 材料,设备和消耗品:本部分列举了确认过程中所用到的所有材料,包括所有的软件及其版本。试剂的原材料也包含其中。如果可以的话,批号和储存环境也要进行注释。应该参考设备和软件确认。

○ 试剂:本节介绍所有试剂配方,包括其来源、储存和稳定性。还应该说明商业可购性和内部产生的质控材料。

○ 样品:应该列举用于每种试验的样品。如果在具体的试验中只用到了这些样品的一部分,比如用于准确度以及参考方法的样品,那么这些信息应该相应地作做出注释。任何残留的患者标本都应该取消标识,并且只能在当地法规和法令允许的范围内使用。

○ 参考的程序/说明书:这个单独的文件驱动着在每个实施的试验中的分步分析程序。

○ 性能特征/确认结果:应该对所执行的特定试验以及为每个性能特征的分析和临床确认所获得的数据进行报告。关于实验设计和每个性能标准确认所使用样品类型应该优先于结果部分。确认报告中还应该包含原始数据以供将来参考,同时还需要对每个实验结果的一份说明,一份关于是否符合可接受标准的记录以及所有计划的试验的偏差或者可接受标准和结果之间的不一致。

○ 相关文件:列举的文件包括分析方法的程序/说明书,报告发放的程序/说明书以及任何其他相关的文件。

○ 参考文献:本部分应列出所研究的基因座的开创性参考文献,以及该检测和分析方法的临床有效性和实用性。

○ 批准:本部分由实验室主任签署的声明批准来确认并证实该检测可以用于临床。


参考文献

1. Centers for Medicare and Medicaid Services, US Department of Health and Human Services. Part 493-Laboratory Requirements: Clinical and Laboratory Improvement Amendments of 1988; Subpart K-Quality System for Nonwaived Testing; Standard: Establishment and verification of performance specifications. (Codified at 42 CFR §493.1253); 2003.

2. European Community. Medical device directive, Annex IX 93/42/EEC. http://www.lne-gmed.com/pdf/en/annex9-directive-93-42-amended.pdf. Accessed April 26, 2012.

3. FDA. Device classification. US Food and Drug Administration; 

2009. http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/Overview/ClassifyYourDevice/default.htm. Accessed April 26, 2012.

4. American College of Medical Genetics. Standards and guidelines for clinical genetics laboratories; 2006 edition. Technical standards and guidelines: molecular genetic testing for ultra-rare disorders. http://www.acmg.net/Pages/ACMG_Activities/stds-2002/URD.htm. Accessed April 26, 2012.

5. Collaboration, Education, and Test Translation (CETT) Program. http://rarediseases.info.nih.gov/cettprogram/gim.aspx. Accessed April 26, 2012.

6. CDC. Genomic testing-ACCE model process for evaluating genetic tests. Centers for Disease Control and Prevention. http://www.cdc.gov/genomics/gtesting/ACCE/index.htm. Accessed April 26, 2012.

7. Jennings L, Van Deerlin VM, Gulley ML; College of American Pathologists Molecular Pathology Resource Committee. Recommended principles and practices for validating clinical molecular pathology tests. Arch Pathol Lab Med. 2009;133(5):743-755.

8. Association for Molecular Pathology Clinical Practice Committee. Molecular diagnostic assay validation. http://www.amp.org/committees/clinical_ practice/AssayValidation_ Final.pdf. Accessed April 26, 2012.

9. Sun F, Bruening W, Uhl S, Ballard R, Tipton K, Schoelles K.Technology assessment: Quality, regulation and clinical utility of laboratorydeveloped molecular tests.http://amec.glp.net/c/document_library/get_file?p_l_id=844091&folderId=754745&name=DLFE-21304.pdf. Accessed April 26, 2012.

10. Jhang JS, Chang CC, Fink DJ, Kroll MH. Evaluation of linearity in the clinical laboratory. Arch Pathol Lab Med. 2004;128(1):44-48.

11. Huber, L. Validation of Analytical Methods and Procedures, LabCompliance Tutorial. http://www.labcompliance.com/tutorial/methods/default.aspx. Accessed April 26, 2012. [Based upon Huber L. Validation and Qualification in Analytical Laboratories. 2nd ed. New York, NY: Informa Healthcare USA, Inc.; 2007.]

12. CLSI. User Protocol for Evaluation of Qualitative Test Performance; Approved Guideline—Second Edition. CLSI document EP12-A2. Wayne, PA: Clinical and Laboratory Standards Institute; 2008.

13. CLSI. Method Comparison and Bias Estimation Using Patient Samples; Approved Guideline—Second Edition (Interim Revision). CLSI document EP09-A2-IR. Wayne, PA: Clinical and Laboratory Standards Institute; 2010. 

14. CLSI. Defining, Establishing, and Verifying Reference Intervals in the Clinical Laboratory; Approved Guideline—Third Edition. CLSI document C28-A3c. Wayne, PA: Clinical and Laboratory Standards Institute; 2008.

15. CLSI/NCCLS. Evaluation of the Linearity of Quantitative Measurement Procedures: A Statistical Approach; Approved Guideline.CLSI/NCCLS document EP06-A. Wayne, PA: NCCLS; 2003.

16. CLSI/NCCLS. Protocols for Determination of Limits of Detection and Limits of Quantitation; Approved Guideline. CLSI/NCCLS document EP17-A. Wayne, PA: NCCLS; 2004.

17. CLSI. Diagnostic Nucleic Acid Microarrays; Approved Guideline. CLSI document MM12-A. Wayne, PA: Clinical and Laboratory Standards Institute; 2006.

18. Official Journal of the European Union. Commission Decision of 3 February 2009 amending Decision 2002/364/EC on common technical specifications for in vitro-diagnostic medical devices. http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2009:039:0034:0049:EN:PDF. Accessed April 26, 2012.

19. Zimmermann BG, Holzgreve W, Avent N, Hahn S. Optimized real-time quantitative PCR measurement of male fetal DNA in maternal plasma. Ann N Y Acad Sci. 2006;1075:347-349.

20. Armbruster DA, Pry T. Limit of blank, limit of detection and limit of quantitation. Clin Biochem Rev. 2008;29(Suppl 1):S49-S52.

21. Mattocks CJ, Morris MA, Matthijs G, et al; EuroGentest Validation Group. A standardized framework for the verification and validation of clinical molecular genetic tests, EJHG, 28 June, 2010, doi:10.1038/cjhg2010.101.

22. CLSI. Interference Testing in Clinical Chemistry; Approved Guideline—Second Edition. CLSI document EP07-A2. Wayne, PA: Clinical and Laboratory Standards Institute; 2005.

23. van der Stoep N, van Paridon CD, Janssens T, et al. Diagnostic guidelines for high-resolution melting curve (HRM) analysis: an interlaboratory validation of BRCA1 mutation scanning using the 96-well LightScanner. Hum Mutat. 2009;30(6):899-909.

24. American College of Medical Genetics. Technical standards and guidelines for CFTR mutation testing, 2006 edition. http://www.acmg.net/Pages/ACMG_Activities/stds-2002/cf.htm. Accessed April 26, 2012.

25. US Department of Health and Human Services, US Food and Drug Administration, Center for Devices and Radiological Health. Guidance for industry and FDA staff: Statistical guidance on reporting results from studies evaluating diagnostics tests; 2007. http://www.fda.gov/downloads/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm071287.pdf. Accessed April 26, 2012.