用于卵巢癌的一种体外诊断多变量指标分析(IVDMIA):汇集多种生物标志物性能

作者:张桢
2021-12-16

张桢.jpg

Dr. Zhen Zhang,美国约翰霍普金斯医学院病理系副教授,生物标志物发现与转化研究中心副主任。长期致力于采用生物信息学技术与手段对生物标志物在临床诊断中进行研究。其研究团队一直在采用数学与计算机算法来鉴别生物标志物的发现是否可被用于具有预见性的诊断以及对疾病的过程进行管理。尤其擅长对高通量的蛋白组学分析方法所获得的数据进行分析。其团队及实验室多次获得美国GCTA、CPTAC等重大疾病研究项目的资助。其涉及与卵巢癌早期诊断及分析的工作先后两次获得了美国FDA的批准。目前已与中科院、解放军总医院等多家国内研究机构和高校建立和长期的合作。


在本文中,OVA1®(Vermillion,Inc.,Austin,TX)是美国食品药品监督管理局(FDA)批准的第一个蛋白生物标志物体外诊断多变量指标分析(IVDMIA)法,用于解释IVDMIA的概念、使用多种标志物以提高诊断工具的临床性能、以及IVDMIA开发中的关键考虑因素。

关键词:体外诊断多变量指标分析;蛋白生物标志物;卵巢癌;CA-125


OVA1®(Vermillion,Inc.,Austin,TX)是美国食品药品监督管理局(FDA)批准的第一个用于临床的蛋白生物标志物体外诊断多变量指标分析(IVDMIA)法。自2009年OVA1获得审批以来,大量IVDMIA测试已用于临床应用。其中一些测试已提交了监管审批,其他一些测试则作为实验室自建检测方法(LDT)提供。在本文中,OVA1用于解释IVDMIA的概念、使用多种标志物以提高诊断工具的临床性能、以及IVDMIA开发中的关键考虑因素。


什么是IVDMIA?

在2007年的指南草案中,FDA将IVDMIA定义为:一种具备以下功能的设备,它可以:

1)使用解释函数结合多个变量的值来产生单一的患者特异性结果(例如,“分类”、“评分”、“指标”等),预期用于疾病或其他状况的诊断,或用于消除、缓解、治疗或者预防疾病。

2)提供推导过程不透明并且无法被终端用户独立推导或验证的结果。


采用多种生物标志物检测本身并不是新鲜事物。实际上,医生日常在订购多个试剂或测试板以协助他们进行鉴别诊断决策时,践行的就是多种生物标志物检测。一个简单的例子是使用白细胞水平(白细胞计数[WBC])来排除高烧患者属于细菌感染。稍微复杂的一个例子是两种检测比值的使用: 游离(未结合的)前列腺特异性抗原/总前列腺特异性抗原(也叫“游离PSA百分比”)。较低的游离PSA百分比表明患前列腺癌的风险升高。但是,当测试数量增加和/或测试中疾病相关模式复杂时,简单的视觉检查结果(例如,WBC)或计算比例就不适用了。相反,先进的数学和计算工具对于获得多变量模型是必要的,这些模型通常能够在大量生物标志物中捕获疾病特征或模式。用于推导这类模型的工具以及生成这些指标的组合模型,对于那些负责解释结果的人来说,往往是不明显或不易理解的。在临床实践中,这有时会引起IVDMIA采用的不安。


为什么要使用IVDMIA?

IVDMIA的优缺点

与单一生物标志物分析相比,IVDMIA的优势基于这一前提:单一值指标结合来源于补充性生物标志物的综合信息,性能将优于单独使用其中某一组分生物标志物的性能。图1通过模拟示例说明了这一概念。生物标志物A和B都能很好地将病例(红色方块)从对照组(绿色实心圆圈)中分离出来。然而,如果预期的临床应用需要极高的灵敏度,若不显著牺牲特异性,这两个生物标志物都不可能达到这一目的。


技术导航-张桢-2.jpg

图1. 两种生物标志物的模拟数据

红色方块,病例;绿色实心圆圈,对照组。蓝色虚线显示了一种线性模型,这一模型将两种生物标志物相结合,使得两类样品能够更好地分离开(相比单独使用两个生物标志物而言)。红线是一个非线性模型的例子,能够进一步提高模型性能。


图1说明采用线性回归等方法组合一个两种生物标志物的简单线性模型,能够实现更高水平的灵敏度,同时保留大部分特异性。通过使用非线性模型进一步提高了分类性能。


在短短十年内,基因组学和蛋白质组学分析技术的进步,以及多重检测平台的开发使得分析大量生物标志物并将其信息集中用于辅助临床决策成为可能。为了整合来自大量生物标志物的信息,捕捉具有多个潜在分子特征的疾病指示物的表达模式,必须使用先进的计算和统计工具来推导IVDMIA模型。相应的高维数据和复杂的判别边界将难以可视化。然而,使用多变量模型来提高检测临床性能的基本概念仍然与图1所示的简单双变量示例相同。


除了IVDMIA的优势外,其开发和应用也存在一定的危险。多变量模型能够捕获高维数据中的复杂模式也就意味着,还将捕获恰好混淆了用于训练模型的样本的疾病状态的非疾病相关伪影。举例来说,这些伪影可能是在训练样本来自回顾性“病例-对照”研究时由分选病例和对照过程中的偏差造成的,或者在标本收集、储存或处理过程中的细微差异导致的。原本被报告具有极高临床性能的模型,在这种偏差的作用下,最终失败或者在进一步的独立研究中没有重复其结果。在IVDMIA开发过程中,临床研究(从中抽取样本)设计以及样本实际使用情况需要特别注意。良好的设计实例是基于“对相关临床背景中已明确生物标志物检测结果的样本进行前瞻性收集,并随机分为测试组和对照组。”这一概念,如PRoBE(前瞻性样本收集、回顾性盲评价)研究设计所示。它避免了许多常见偏差和混杂因素的影响。


开发IVDMIA过程中的考虑因素


IVDMIA的开发必须由一个明确定义的预期用途来驱动。


随着基因组学和蛋白质组学研究的飞速进展,新型生物标志物的发现或现有生物标记的新应用,已成为文献报道的常有之事。然而,对于生物标志物进入IVDMIA阶段并最终成为临床应用中的商业产品来说,道路通常是漫长而艰难的,涉及一个收集和建立临床疗效证据并开发一个分析稳定的检测平台的阶段性过程。


IVDMIA的开发必须由一个明确定义的预期用途来驱动。预期用途规定了在疾病这条路上使用IVDMIA的时间节点。这反过来又规定了需检测的目标人群、就临床干预中可能导致的变化而言检测的实用性、以及假阳性或阴性结果所带来的后果。对于IVDMIA开发,预期用途决定了生成训练数据的研究对象的入选和排除标准、进行最终IVDMIA确认的患者群体、拟列入的生物标志物的选择标准、以及要达到效果的最低要求。从产品商业化的角度来看,预期用途的定义需要在扩大IVDMIA的适用范围这一愿景与证明其安全性和有效性以供监管机构批准所需的能力、成本和时间之间达成妥协。


在IVDMIA中,选择的所有生物标志物要能够互补,且对于检测的预期用途来说这些标志物的整体性能要优于单个标志物。具有最高辨别力的生物标志物并非总是能够在IVDMIA中组成最佳的标志物组。对于卵巢癌,癌抗原125(CA-125)仍然是最好的肿瘤标志物。因此,其他生物标志物的选择将主要基于它们在低血清CA-125水平癌症患者中检测恶性肿瘤的能力或者在高血清CA-125水平非癌症患者中降低假阳性结果的能力。


将IVDMIA作为商业产品开发的决定是对资源和努力的重大委托,应以坚实的科学证据为基础。正如上文,由回顾性“病例-对照组”研究中的临床样本而产生的生物标志物数据易受偏差和混杂因素的影响。由于临床环境中如何以不同方式处理来自病例和对照组的样本的实际限制,一些偏差可能是不可避免的。单一站点研究的结果,无论结果多么坚挺,往往不足以推断IVDMIA在不同站点的未来表现。在实践中,所选生物标志物表达的疾病相关模式在多个独立临床站点的可移植性,在IVDMIA开发中通常是做出继续进行或不继续进行决定的更为重要的证据。


定义的预期用途也可用于影响IVDMIA中多变量模型的推导。模型推导使用的优化程序中,通常可以将想得到的临床性能特征(如对高灵敏度的需求),纳入优化中所使用的目标函数。


OVA 1的开发

OVA1是美国食品药品监督管理局(FDA)批准的第一个蛋白生物标志物IVDMIA,用于在计划手术前进一步评估患有卵巢附件肿块的女性恶性肿瘤的可能性。OVA1结合了五种检测(CA-125 II、前白蛋白、载脂蛋白A-1、β2-微球蛋白、和转铁蛋白)结果,合并成0到10之间的一个单值指标;较高的指标值代表着较高的恶性风险。使用5.0和4.4的两个临界值,分别对应绝经前期和绝经后期女性,将女性分类为高恶性概率人群或低恶性概率人群。在一项大规模、多中心、前瞻性临床研究中,据报告,在同时拥有医生评估和OVA1值的516名患者中,OVA1加上医生评估,非妇科肿瘤专家诊断的灵敏度从72.2%(52/72)提高91.7%(66/72),妇科肿瘤专家从77.5%(69/89)提高至98.9%(88/89)。这种灵敏度的显着改善,代表着高阴性预测值(NPV),这是临床上的一项重要评估,用于使医生和患者确认有OVA1阴性结果的患者恶性风险较低。实际上,OVA1自身92.5%(149/161)的灵敏度将产生92.9%(156/168)的阴性预测值(NPV)。这项研究的进一步细节以及一项使用OVA1代替CA-125的伴随式分析在美国妇产科医师大会卵巢肿瘤转诊指南中已有报道。


OVA1的目标人群是因疑似卵巢癌风险而计划进行手术且尚未被转介给妇科肿瘤科专家的女性,她们代表了真正的临床需求。许多临床研究表明,卵巢癌患者转诊给妇科肿瘤科专家进行手术更有可能获得较好的预后,包括手术分期、理想的肿瘤细胞减灭术、以及改善中位数和总体5年生存率。但是,目前只有约三分之一的卵巢癌患者被转诊给妇科肿瘤专家进行初次手术。OVA1为帮助指导转诊决策过程提供了额外信息。


许多临床研究表明,卵巢癌患者转诊给妇科肿瘤科专家进行手术更有可能获得较好的结局,包括手术分期、最理想的肿瘤细胞减灭术、以及改善中位数和总体5年生存率。但是,目前只有约三分之一的卵巢癌患者被转诊给妇科肿瘤专家进行初次手术。


虽然将OVA1加入临床评估,显著提高了灵敏度。但这是以降低特异性为代价的。理想的情况是,检测既具有高灵敏度,又具有高特异性。遗憾的是,一项使用国家癌症研究所的PLCO(前列腺、肺、结直肠和卵巢癌)筛查试验样本,对大量卵巢癌生物标志物进行系统评估的研究得出结论,这些生物标志物中没有一种可以提供这样一个理想的性能水平。在构建OVA1多变量模型和选择临界值时,作出了一项有意识的强调需要高灵敏度的决定。这项决定考虑到需要减轻OVA 1在预定预期用途方面的安全忧虑。由于OVA1是在决定转诊给专家之前使用,因此较高的灵敏度可以将来自多个中心的假阴性样本的风险降到最低。使用了统计上完好的设计和稳健的生物信息学工具,以减轻偏差和混杂因素的影响。在推导实际OVA1模型并着手启动多中心临床研究以寻求获取OVA1监管审批之前,对这些生物标志物进行了进一步确认,证明了之前提及的生物标志物的区分能力在多个独立临床站点具有可移植性的论据。在图2(A)中,使用主成分分析(PCA)法对在一个临床站点收集的来自良性或恶性卵巢肿瘤患者的前瞻性临床样本进行聚类,并绘制在第一和第二PCA维度中。由于PCA是一种无监督的方法,其中未使用样本的临床标签,因此二维PCA图显示了由于七种生物标志物的区分能力而产生的癌症和良性病例的自然分离状况。在图2(B)中,使用与图2(A)中绘图相同的PCA投射系数绘制来自五个另外临床站点的回顾性样本。可以看出,地理位置极其遥远的站点与站点之间的分离模式与2(A)中的相同。出于测试的分析性能原因,虽然七种生物标志物中只有四种被加入到CA-125组成了OVA1组合,且最终的测试方式与用于该图的测试方式不同,但在开发OVA1 IVDMIA的决策中,这一可移植性证据发挥了重要作用。


技术导航-张桢-3.jpg

图2. 生物标志物的区分能力在地理位置遥远的多个独立临床站点具有可移植性的证据

(a)在一个独立站点对前瞻性研究样本进行无监督聚类分析图。该图显示了七种卵巢癌生物标志物(不包括CA-125)数据的第一个二维主成分分析(PCA)中的样本。(b)使用A中相同PCA投射系数,将来自遥远地理位置的另外五个临床站点的样本绘制在相同的二维PCA成分空间中。卵巢良性和恶性肿瘤从一个站点到另一个站点的聚类和分离模式的持续性是支持进一步开发IVDMIA的重要证据。后来将七种生物标记中的四种加入至CA-125以形成OVA1(Vermillion,Inc.,Austin,TX)生物标志物组合。


OVA1的训练样本来自两个前瞻性收集的样本集。第一个样本集包括来自肯塔基大学(UKY)医学中心的274个连续性抽样(167个良性、29个低恶性风险[LMP]肿瘤、63个上皮性卵巢癌[EOC]、3个其他卵巢癌和12个其他癌症)。第二样本集包括来自多中心前瞻性研究的125个样本(33个上皮性卵巢癌[EOC]和92个良性)。两个样本集都采用了相同的入选和排除标准,要求受试者为患有卵巢肿瘤并随后通过手术确认为恶性状态的≥18岁的女性。这些样本在多变量模型推导中的应用涉及广泛的统计重采样(自举法),以选择和测试可能具有稳健性能的模型,并在来自不同临床站点的患者中具有很好的通用性。图3显示了OVA1模型推导中训练样本的使用情况。每次通过自举重采样来改变训练样本的组成,在这种训练过程迭代中产生了许多多变量模型。最终OVA1模型的选择基于模型对于训练样本、训练中测试样本和一组随机从UKY样本中选取的预留样本(数量为UKY样本数量的一半,从未用于模型训练)的模型性能。


技术导航-张桢-4.jpg

图3. 推导OVA1®(Vermillion,Inc,Austin,TX)

多变量模型的数据使用图。

在模型推导过程中,随机选择50%的肯塔基大学(UKY)样本作为预留样本测试集TST。其余50%的UKY样本作为TRN2。在每个训练过程迭代中,对TRN2重新采样,添加至TRN1(多中心样本)以形成实际训练样本集btTRN。剩余的TRN2样本用作训练中测试样本集btTST。预留样本集不直接参与模型推导,它有助于候选模型的选择和OVA 1模型的最终选择。


结 论

基因组和蛋白质组学技术的进步以及个性化医疗的推动,促进了生物标志物的开发和应用,以用于风险评估、早期检测、诊断、预后、治疗选择和监测。然而,对循证医学的需求也要求这些应用必须以科学数据为根据,而科学数据必须来自统计上合理的临床研究。IVDMIA将多个生物标志物组合成单一值指标,因此可以使用与传统IVD测试类似的完善程序和方案来确认其临床效用。


在IVDMIA的开发过程中,多种生物标志物的共同使用具有一定程度的灵活性,可以为特定的临床应用塑造其不同的性能特征。因此,在进入完整的IVDMIA开发程序之前,有一个明确定义的预期用途是至关重要的。在本文中,以OVA1为例来说明了IVDMIA开发中的几个关键因素。OVA 1目前的预期用途得到了一项大规模、前瞻性、多中心临床研究的支持。OVA1的性能特征在很大程度上是根据其预期用途进行优化设计的,并受其组分生物标志物鉴别能力的限制。预计随着不断引进更多或替代性生物标志物的努力,OVA 1未来接替物的性能将得到进一步改善。


要 点:

与单一生物标志物分析相比,体外诊断多变量指标分析(IVDMIA)的优势基于这一前提:单一值指标结合来源于补充性生物标志物的综合信息,性能将优于单独使用其中某一组分生物标志物的性能。


多变量模型能够捕获高维数据中的复杂模式也就意味着,还将捕获恰好混淆了用于训练模型的样本的疾病状态的非疾病相关伪影。


● 在IVDMIA中,选择的所有生物标志物要能够互补,且对于检测的预期用途来说这些标志物的整体性能要优于单个标志物。


● OVA1® 结合了五种检测(CA-125 II、前白蛋白、载脂蛋白A-1、β2-微球蛋白、和转铁蛋白)结果,合并成0到10之间的一个单值指标;较高的指标值代表着较高的恶性风险。


● 虽然将OVA1加入到临床评估,显著提高了灵敏度。但这是以降低特异性为代价的。在构建OVA1多变量模型和选择临界值时,作出了一项有意识的强调需要高灵敏度的决定。这项决定考虑到需要减轻OVA 1在预定预期用途方面的安全忧虑。由于OVA1是在决定转诊给专家之前使用,因此较高的灵敏度可以使实际患有恶性疾病患者的假阴性结果风险降至最低。