血液细胞游离核酸检测的多癌症早期筛查性能预测评估

作者:编译丨奔奔
作者单位:编译丨临床实验室 2023-11-08

【摘要】背景 可以检测多种癌症类型或多癌症早期筛查(MCED)的检测最近已成为降低癌症发病率和死亡率的潜在新工具。大多数MCED分析基于检测血液中的肿瘤细胞游离DNA(CF-DNA)。无论是否进行推荐的筛查,MCED都有可能筛查出死亡率高的癌症器官部位。在确定MCED临床效用之前,必须证明MCEDs的临床有效性,即它们预测癌症状态的能力。在这项研究中,我们对基于细胞游离核酸MCED检测对癌症的预测能力进行了系统评价。内容 使用与多癌检测、循环DNA相关的MeSH术语在PubMed中搜索了2017年1月至2023年2月发表的相关研究,在评估的1811篇研究中对61篇进行了全文浏览,最终20篇纳入本综述。几乎所有的研究,在诊断时都对癌症病例进行了评估,大多数研究报告了特异性(通常为≥95%)和总体敏感性(中位数为73%)。每次测定评估的癌症类型中位数为5。许多研究还报道了分阶段和/或癌症类型的敏感性,敏感性通常随着阶段而增加。总结 迄今为止,评估MCED检测临床有效性的研究相对较少,大多数使用诊断时进行评估癌症病例,其特异性一般较高,敏感性因癌症类型和阶段而异,下一步的研究应在预期使用人群(即无症状人群)中进行检测。

在过去的几年中,可以检测多种癌症类型的癌症筛查,即多癌症早期筛查(MCED)已成为预防癌症发病率和死亡率的潜在新工具。这些新MCED分析大多基于检测血液中的循环或肿瘤细胞游离DNA(CF-DNA)。使用CF-DNA或更普遍的细胞游离核酸的MCED,评估DNA突变、RNA突变或DNA甲基化模式,并且可以与其他生物标志物(例如蛋白质)组合的多种方法。除了能够检测一般癌症信号的存在,许多MCED检测还具有一定的预测潜在癌症组织起源(TOO)的能力。MCED提供了筛查高死亡率癌症器官部位的潜力(但目前没有推荐的筛查,例如胰腺和卵巢),以及通过单次血液检测筛查全癌症谱的优势。然而,MCED用于癌症筛查的临床效用(即对患者的益处)尚未确定,且利弊比尚不清楚。在确定临床实用性之前,必须证明MCED的临床有效性,即这些检测预测人群癌症状态的能力。在这种筛查背景下,预期使用人群是无症状、健康的人,虽然筛选试验的临床有效性并不一定意味着临床实用性,但它是临床实用性的必要条件。在本文中,对基于CF-DNA(或基于RNA)的MCED检测在预测癌症状态的性能特征的文献进行了系统回顾,评估了标准筛查检测的敏感性、特异性和ROC曲线下面积(AUC)等性能指标。此外,针对MCED还评估了在适用的情况下,TOO预测的准确性。

一、文献检索方法

1. 搜索方法:在PubMed输入,“生物标志物,肿瘤(Tumor)/血液;抗原,肿瘤(Neoplasm)/血液;循环肿瘤DNA;细胞游离核酸;DNA甲基化;多种癌症早期检测;液体活检;MCED和癌症早期检测;早期诊断”,结果仅限于2017年1月1日至2023年2月27日。如果研究是尝试评估>1种癌症类型的检测性能的原创文章,则被认为符合纳入标准,作为癌症检测算法的一部分,该检测法需要分析细胞游离核酸,但结合细胞游离核酸分析的其他分析物的检测研究也包括在内,要求报告检测的敏感性和特异性和/或AUC。

2. 数据提取:提取了研究参数和检测性能指标的数据。研究参数提取以下内容:测定生物学特性、研究设计(阶段)、模型、验证类型和研究人群。生物学特性分为甲基化、突变或其他。研究设计根据癌症筛查检测的标准等级划分为第2阶段(诊断时对参与者进行评估)、第3阶段(对储存样本的回顾性分析)、第4阶段(前瞻性筛查)。验证分类为交叉验证或使用独立验证集(或未报告验证),研究人群按照受试者的原籍国进行分类。对于性能指标,提取敏感性、特异性、AUC和TOO准确性。提取总体结果以及癌症部位和癌症阶段结果。必要时,对补充材料和正文进行审查,当论文报告了训练集和测试(或验证)集的性能时,只报告后者。为了报告敏感性和特异性或不同癌症类型或阶段的敏感性,文章必须明确说明敏感性和特异性估计值来自相同检测方法、相同算法和用于纳入估计值的相同切点(即阳性检测的相同定义),仅在真阳性病例中报告了TOO的准确性。如果一篇文章提出了多个模型或检测方法,在本文中只报告性能最好的检测方法,论文仅在直方图中显示敏感性或AUC,未说明确切值的是从图中近似得出。如果仅提供癌症类型或阶段的AUC、敏感性或TOO结果,但不提供总体结果,并且提供了每个类型或阶段样本的数量,则计算总体值作为单个癌症类型或阶段的加权平均值。如果没有报告敏感性和/或特异性的置信区间,并且估计值是独立验证集与所述样本量的简单比例,则使用标准方法计算置信区间。

二、文献分析结果

1. 搜索方法:搜索到1782个结果(图1),另外29篇文章是通过引文检索确定的,对结果标题和摘要进行了浏览,根据相关性删除了1750篇,对61篇文章进行了全文浏览,最终纳入20篇文章(表1)。20篇中有2篇同时报道了第2阶段和第3阶段的研究,由于阶段是生物标志物研究的关键要素,因此每一篇都被认为是对2项独立研究的总结,相反,有2篇论文报道了同一项研究,侧重于按种族/民族划分的结果,因此,我们在此报告21项不同的研究。

图1. 确定相关研究的工作流程

2. 分析特点:表1中总结了21项研究中提出的分析特点,评估潜在生物成分。甲基化是最常见的检测类型,有12项研究专门利用了该成分,另外3项研究专门评估了DNA突变,2项研究结合了DNA突变分析和蛋白质生物标志物鉴定。3项研究评估了独特的模式,包括DNA片段、血小板RNA突变以及循环细胞游离细胞核和线粒体DNA水平。1项研究评估了多种不同检测方法的性能,包括甲基化和突变。

表1. 研究特征

注:a AN,肛门;BL,膀胱;BR,乳腺;CR,结直肠;ES,食道;HE,血液学;HN,头部和颈部;LU,肺;LV,肝脏;LY,淋巴瘤;KD,肾脏;ME,黑色素瘤;MM,多发性骨髓瘤;OV,卵巢;OTH,其他;PA,胰腺;PC,浆细胞;PR,前列腺;ST,胃;TH,甲状腺;UT,子宫,b O, 整体;S,按阶段划分;T,按癌症类型;ST,按与阶段交叉的类型,C 全基因组甲基化、单核苷酸变异、片段、等位基因失衡、SCNA、片段长度。

3. 研究特点:在21项研究中,18项为设计的第2阶段,2项为第3阶段,1项为第4阶段(表1)。10项研究仅针对北美参与者,3项针对北美和欧洲参与者,7项针对欧洲(n=2)或中国(n=5)参与者(一项研究的原产国未知)(表1)。研究中总体敏感性和/或AUC估计值中包括的癌症类型的中位数(25th/75th)为5(4/12)。最常见的癌症类型包括结直肠癌,肺癌和肝癌,分别包括在20,19和16项研究中。12项研究提供了来自独立验证集的性能数据,7项提供了交叉验证的性能数据,2项未使用验证集(表2)。独立验证组的癌症病例中位数(25th/75th)为191(96/464),交叉验证的研究使用的病例总数中位数(25th/75th)为220(208/883)。几项研究代表了检测研发人员或研究团队计划的一系列研究。循环游离细胞基因组图谱研究包含3个子研究,Jamshidi等人提供了子研究1的数据,该子研究评估了广泛的检测方法,以确定最佳表现者。基于DNA甲基化的模型随后在子研究2中进行了改进,这些数据由Liu等人提供,子研究3用作检测验证,这些数据由Klein等人提供。另一个研发人员在研发过程中也发表了几项研究,Cohen等人报告了评估体细胞点突变和插入或缺失的检测结果。Douville等人的分享了Cohen等人的一些癌症样本,但评估了基于非整倍体的检测。Lennon等人对这些作者的检测方法进行了改进并将其用于前瞻性研究。

表2. 敏感性和特异性及AUC

注:a 括号中的数字表示报告的类型总数,如>1;b 对于独立验证,样本量是验证集中的数字;样本量是交叉验证过程使用的总数;c 特定水平的特异性;d 基于12种预设癌症类型的敏感性,如表2所示。

4. 分析性能:19项研究报告了检测的总体敏感性和特异性(表2,图2A)。8项研究报告了在预先指定的固定特异性水平下的敏感性,均≥95%。中位数(25th/75th)总敏感性为73%(62%/84%)。16项(84%)研究的特异性≥95%,10项(53%)研究的特异性≥99%(图2A)。12项研究报告了AUC,中位数(25th/75th)为92.6%(90.5%/97.2%)(表2,图2B)。在3项3-4阶段研究中,2项报告了低敏感性(27%和36%),而第3个(3阶段研究)报告了95%的敏感性(所有研究的特异性都至少为96%)。在9项研究中,敏感性分阶段呈现(图2C)。在这些研究中,平均敏感性随阶段而增加,I-IV的平均(SD)率分别为46.2%(16.2)、59.5%(13.4)、73.9%(13.9)和83.8%(11.5)。在2项研究中AUC按阶段呈现(图2C)。12项研究报告了癌症类型的敏感性,2项研究报告了癌症类型的AUC。图3显示了结直肠癌、食管癌、肝癌、肺癌、胰腺癌和胃癌6种常见癌症类型的敏感性和不同类型的AUC。肝癌的敏感性往往高于其他类型的癌症,在9项评估肝癌的研究中,有6项对不同癌症类型的敏感性最高。4项研究显示了至少部分癌症的分阶段敏感性(数据未显示)。

注:每列代表一项研究,并给出参考号。黑色方块表示估计中包括的癌症类型(CR,结肠直肠;LV,肝脏;PA,胰腺;ST,胃;ES,食道;LU,肺;BR,乳腺;OV,卵巢;BL,膀胱;OTH,其他)。检测类型为ME(甲基化),MU(突变)或OTH(其他)。第2、3和4阶段的研究的点估计分别由星形,圆形和X给出;垂直线代表95%CI。(A)总体敏感性,顶部条形代表特异性范围;(B)总体AUC;(C)阶段的敏感性和AUC。

图2. 总体和阶段的敏感性和AUC

注:每一列对应于一项研究(参考号为#),6个癌症部位(结直肠癌[CRC]、肝脏、胰腺、胃、食道、肺)的结果从左到右按所示颜色给出。检测类型为ME(甲基化)、MU(突变)或OTH(其他)。第2阶段和第3阶段研究的点估计分别由星形或圆形表示;垂直线代表95%CI。并非所有研究都包括所有6个癌症部位。

图3. 癌症部位的敏感性和AUC

在一项研究中提出了种族/民族的敏感性,根据癌症类型和分阶段的总体敏感性计算种族/民族的预期敏感性,并与观察到的敏感性进行比较。在非西班牙裔白种人参与者(50.5% vs 50.7%)、非西班牙裔黑种人参与者(53.9% vs 52.1%)和西班牙裔参与者(63.0% vs 61.9%)中,观察到的敏感性与预期的敏感性相似。12项研究给出了TOO准确性的数据(图4),其中5项提供了排名1和2的预测因子的准确性数据,7项仅提供了排名第1的预测因子的准确性数据,对于最高预测因子,中位数(25th/75th)准确性为77%(68%/86%)。

注:每一列代表一项研究,并给出参考号。黑色方块表示敏感性评估中包括的癌症类型(CR,结肠直肠;LV,肝脏;PA,胰腺;ST,胃;ES,食道;LU,肺;BR,乳腺;OV,卵巢;BL,膀胱;OTH,其他)。红色表示第1预测,蓝色表示第2预测。对于第2阶段的研究,点估计由星形表示,圆形表示第3阶段的研究;垂直线代表95%CI。并非所有研究都包括前2名的预测。

图4. TOO预测准确性

三、讨论

这里的研究几乎都是第2阶段研究,使用癌症诊断时提取的样本进行评估,只有2项是第3阶段的研究,对抽血时无症状参与者的储存样本进行回顾性研究,只有1项是第4阶段的前瞻性研究,对无症状参与者进行实时检测评估并跟踪癌症终点。为了获得FDA批准或通过上市前批准或510 K途径的批准,必须对预期使用人群进行分析评估。对于用于癌症筛查的MCED,预期使用人群是特定年龄范围内(例如45-80岁)的无症状人群,因此,2阶段研究不符合这一标准,但这类研究的数据可以作为支持证据提交。通常,这些研究是癌症筛查生物标志物分阶段开发路径的关键组成部分,并且通常是说服合作者、资助者和投资者将检测方法带入下一个开发阶段(即3阶段或4阶段研究)的必要步骤。从逻辑上讲,第4阶段的前瞻性研究比第2阶段的研究更具挑战性,需要更多的资源和时间。对于此处包含的2阶段研究,样本总数和癌症病例数的中位数分别约为400和250。相比之下,在评估的1项第4阶段研究中,约10,000名参与者仅产生96例癌症病例。第3阶段研究,即对无症状参与者储存样本的回顾性研究,在物流和成本方面处于中等水平,然而,就样本的收集和储存方式以及可用容量而言,几乎没有满足CF-DNA MCED检测要求的生物储存库。有2项第4阶段的研究正在进行中或最近完成但没有发表文章的,这些研究没有包括在本综述中。PATHFINDER研究是一项由GRAIL LLC资助,对6,621名参与者进行的前瞻性研究。同样的MCED检测也正在英国一项名为NHS-Galleri试验的大规模随机临床试验中进行评估,该试验最近刚刚完成招募阶段。美国尚未开展类似的基于人群的研究,但美国国家癌症研究所正在为此进行计划。

一般来说,与3或4阶段研究相比,2阶段研究对敏感性和/或AUC估计值往往更有利。第2阶段研究的敏感性和AUC估计值通常被认为是3或4阶段研究预期的上限。本研究纳入的3项3-4阶段研究中,2项的敏感性显著低于2阶段的研究。有趣的是,另一项研究(3阶段)具有非常高的敏感性,95%(特异性为96%)和AUC(99.0)。值得注意的是,2项第3阶段研究使用了来自同一来源的储存样本。第2阶段研究的早期病例敏感性估计值可能是后期环境中最终表现的更好预测指标。在这里,早期患者的平均敏感性显着降低,研究(I,II阶段)平均为46.2%和59.5%,而晚期患者为73.9%和83.8%(III,IV阶段)。MCED特有的预测能力指标是TOO准确性。21项研究中有12项(57%)评估了TOO的准确性,最高预测因子的总体准确性中位数为77%。与敏感性一样,在2阶段研究中评估时,准确性可能会向上偏移,而3阶段研究的TOO估计值准确性要低得多,为25%。此外,对于有预先指定癌症器官部位列表的2阶段研究,TOO预测算法可能仅限于在这些部位中进行选择,在实际检测中,MCED检测可能会从比2阶段研究中评估的更广泛器官部位检测出癌症信号,因此,TOO算法需要考虑更广泛的可能性,并且可能会降低总体准确性,TOO的效用尚未得到严格研究。目前尚不清楚TOO是否会简化由此产生的诊断途径,并减少不必要的操作或诊断时间导致的发病率。

本文回顾的大多数检测产生了大量数据,并利用机器学习算法或复杂的统计模型最终得出风险评分、二元检验结果和/或TOO预测。在这种情况下,避免过拟合和使用训练、检测(验证)集的模型评估过程至关重要。这里回顾的大约60%的研究使用了独立的验证集,约三分之一的研究使用了交叉验证技术(2项没有报告使用验证集)。与拥有独立的验证集相比,交叉验证通常被认为是一种不太可靠的验证方法,对分子分类器研究的验证结果分析表明,对同一分类器进行两种类型验证的研究中,在准确性估计上,交叉验证高于独立验证。对于2阶段研究(从不同的符合条件人群中分别选择病例和对照),重要的是尽可能在盲法条件下,以相似的方式收集、处理、储存和评估两种人群的样本。此外,两种人群的人口统计学(年龄、性别、种族/民族)应该相似,这一点很重要,因为当人群差异很大时,很难确定结果的有效性。例如,在Sundquist等人的研究中,对照组的中位年龄为47岁,而癌症病例的中位年龄为71岁。为了使审稿人和读者能够充分评估研究质量,研究中应明确报告这些问题。本文纳入的2阶段研究(n=18)均未明确说明病例和对照标本的收集、处理、储存和评估方式相同,只有少数研究表明病例和对照的标本最初来自与本研究相同的机构。大约只有四分之一提到研究的所有过程都是盲法条件下进行的。此外,普遍缺乏人口统计报告,只有7项(39%)研究在正文中列出了病例、对照的年龄和性别分布,更多的(72%)是在正文和/或补充材料中同时列出了年龄和性别,但此类基本信息应在出现正文中。

由于筛查检测是针对健康人群进行的,因此限制此类检测的危害至关重要,希望筛查检测具有高特异性(即低假阳性率),由于MCED阳性检测后可能必须检测多个器官部位以确认或排除肿瘤。这里的大多数研究确实评估了高特异性水平的敏感性,其中53%在≥99%特异性,84%在≥95%特异性下进行评估。对于单一的癌症筛查检测,敏感性应该相对较高,约≥70%。对于MCED,尤其是那些覆盖许多不同器官部位的MCED,如果特异性保持很高,则较低水平的敏感性可能是可以接受的,如果在足够广泛的常见癌症类型范围内,较低的总体敏感性水平可能比高敏感性的单一癌症部位筛查检测出更多的癌症。在特异性≥99%的研究中,中位数(25th/75th)总体敏感性为72%(62%/76%)。如前所述,由于这些数据主要基于2阶段的研究,因此它们基本上是预期筛查人群敏感性的上限。比较MCED检测的性能并不简单,敏感性高度依赖于特异性,因此只有在特异性水平相同的情况下才能直接比较敏感性估计值,虽然这里的大多数研究确实报告了高特异性,但即使特异性差异为1%(如,98%-99%),也可能会大大影响敏感性。AUC可以消除这种担忧,但只有略超过一半的研究报告了AUC,此外,根据检测和算法的性质,可能无法计算AUC,因为这需要生成一维风险评分。还有,特别是在评估MCED时,敏感性和AUC估计值严重依赖于所包含的癌症类型的组合、类型谱和类型的相对比例。

在本文描述的研究中,总体敏感性估计值中包含的广泛癌症类型混合以及比例分布。为了使总体估计值标准化,可以计算加权总体敏感性估计值。具体而言,报告的每种癌症类型的敏感性被赋予一个权重,例如,与预期人群中特定癌症类型的发病率成比例,加权总敏感性被计算为癌症类型特异性敏感性的加权平均值。

如果特定MCED检测的敏感性估计值中不包括某一特定癌症类型,在进一步数据之前可以假设低敏感性值等于假阳性率。另外,由于MCED筛查的主要目的是降低癌症死亡率,因此权重可以与特定癌症的死亡率而不是发病率成比例。由于早期癌症的检测对降低癌症死亡率至关重要,因此可以仅使用基于早期病例的敏感性估计值来计算加权敏感性。这些加权敏感性估计值的一个优势是,即使在相对较低的敏感性水平下,一种检测方法能够检测出更多的癌症类型,这应被视为一个加分项,因为将导致更多的癌症筛查检测,将增加总体加权敏感性,同时可能降低原始总体敏感性。除了检测性能之外,还有一些与癌症筛查相关的潜在危害需要在MCED检测的背景下进行研究。可能包括不必要的操作、虚假的安抚、未参加标准筛查、健康差距加剧以及癌症过度诊断导致过度治疗。当检出的癌症不会进展到影响生活质量或预期寿命时,就会发生过度诊断。单一癌症筛查方法难以评估过度诊断,而同时检测多种侵袭性癌症的方法评估过度诊断将更加复杂。过度诊断导致心理伤害,包括痛苦和焦虑以及并发症和治疗副作用带来的身体伤害。需要进一步研究来了解,与标准技术相比MCED筛查是否会加剧这些担忧。评估MCED的另一个复杂性是,大多数检测会随着时间的推移再发展,许多检测研发人员,包括本综述中的大多数研究,都利用机器学习来开发和改进癌症检测算法,由于提供了额外的样本训练算法,分析性能可能会发生变化。特定检测版本必须在研究中描述清楚,以确保随时间推移检测的可比性。在美国50岁或以上人群中,略多于四分之三(77%)的癌症死亡来自以下10个器官:肺、肝、胰腺、胃、食管、结直肠、乳腺、卵巢、膀胱和前列腺。纳入敏感性和9(或)AUC评估的10项研究中,器官部位的中位数(25th/75th)为5(4/7)。仅肺癌就占死亡人数的28%,本综述中90%的研究包括肺癌,57%的研究包括胰腺癌,其中9%的死亡人数是美国未经推荐筛查的器官部位中最多的。前列腺癌不太常见(29%),占该年龄组美国癌症死亡人数的7%(男性为11%)。

这篇系统综述涉及一个具有挑战性的搜索方案,并且可能不能代表现有的基于细胞游离核酸MCED检测的全部领域。多癌症筛查检测法没有标准的命名法来将其与单一癌症筛查检测法或评估肿瘤复发的检测法区分开来。许多关于检测性能的研究描述了独特的基础技术或平台,但没有将其检测命名为癌症筛查工具,因此,有可能发表了描述检测多种癌症的方法,而这些方法未被我们的搜索到。为这一新兴技术建立一个通用的命名将有助于提高未来综述和荟萃分析的可比性。

结论:虽然有许多关于MCED技术及其潜在价值的综述,但已发表的评估基于细胞游离核酸的MCED检测的临床有效性的研究相对较少。大多数已发表的研究使用了参与者在癌症诊断时获得的样本(第2阶段),与从无症状参与者中获得样本的3阶段和4阶段研究相比,这些类型的研究通常高估了检测的敏感性,了解MCED检测性能以准确评估其在人群水平上的获益非常重要,该领域的下一步研究需要在预期使用人群(即无症状人群)中进行MCED检测,有几项此类研究正在进行或计划进行。

翻译自:《Clinical Chemistry》,04 October 2023