卵巢影像学检查对多变量指标分析的临床解读的影响

作者:王小茜、张凯、姜妤、方研、贲文锐 12283
2021-12-16

目的:本文的目的在于研究影像学和多变量指标分析(MIA)在手术前预测卵巢恶性肿瘤的可能性中的关系。

研究设计:招募受试者参加2个相关的前瞻性、多机构试验,研究在美国44个研究地点进行。这些女性做过卵巢影像学检查、生物标志物分析、和附件肿块手术。根据影像学研究,卵巢肿瘤被分为实体肿瘤或乳头状形态学问题高风险。将生物标志物和影像学结果与手术发现相关联。

结果:在参加研究时影像学显示附件肿块的1110位女性中,1024位女性是可评估的。有255例恶性肿瘤和769例良性肿瘤。在1232个影像学试验中,46%存在高风险结果;在1024个MIA试验中,61%存在高风险结果。恶性肿瘤的风险随着MIA评分升高而增加;相似地,与低风险影像学结果相比,高风险影像学结果的恶性肿瘤可能性更高。超声或MIA预测恶性肿瘤的灵敏度和特异性是98%(95% CI,92-99)和31%(95% CI,27-34),超声和MIA预测恶性肿瘤的灵敏度和特异性是68%(95% CI,58-77)和75%(95% CI,72-78)。计算机断层(CT)扫描或MIA预测恶性肿瘤的灵敏度和特异性是97%(95% CI,92-99)和22%(95% CI,16-28), CT扫描和MIA预测恶性肿瘤的灵敏度和特异性是71%(95% CI,62-79)和70%(95% CI,63-76)。只有1.6%的卵巢肿瘤在两项试验均显示低风险时是恶性的。提出了一种预测恶性肿瘤风险的逻辑回归模型。

结论:了解盆腔影像学如何影响MIA评分有助于临床医生更好地解读卵巢肿瘤的恶性风险。

关键词:影像学;多变量指标分析;OVA1;卵巢肿瘤


卵巢癌是美国妇科癌症死亡的主要原因,只有不到40%被诊断患有卵巢癌的女性会被治愈。其中一个公认的挑战是,如何在初期手术之前鉴别出有风险的卵巢肿瘤以便转诊。15年以前,美国卫生研究院发布了一项共识声明,声称具有高恶性风险的卵巢肿块患者应有选择妇科肿瘤专家为其做手术的机会。后续发表的很多卵巢癌文章证实了,专科医生的参与使结局得到改善;但是在美国,三分之二的原发性卵巢癌患者在手术之前没有转诊给妇科肿瘤专家。关于转诊率低,有一些似有道理的解释;其中之一是,现有评估法的灵敏度低,在手术之前未能警告评估的医生。这对于绝经前期的女性尤其重要,她们很少被认为有卵巢恶性肿瘤风险但是在所有卵巢癌中占比高达20%。2006年,Myers等人发表了关于附件肿块评估算法的汇总统计学分析,结论是影像学与生物标志物相结合的方法优于单独使用任一方法。直到近期,癌症抗原125(CA 125)成为评估卵巢肿瘤女性最广泛使用的生物标志物。遗憾的是,据报道CA 125对早期疾病的灵敏度只有50%,在晚期癌症中还有20%-25%的假阴性率。在绝经前期女性中,CA 125对卵巢恶性肿瘤的灵敏度是50%-74%,特异性低至26%。OVA1(多变量指标分析[MIA])是一项灵敏的生物标志物试验,专门用于手术前评估卵巢肿瘤。在领先的出版物中,临床评估结合MIA鉴别出了被CA 125漏诊的86%恶性肿瘤,而且其临床性能在早期和晚期癌症中保持一致。这些发现最近得到Bristow等人的前瞻性研究证实。在某些情况下,卵巢肿瘤具有高风险MIA评分但是低风险影像学结果。在这种情况下,没有已发表数据可帮助医疗提供者做出有关手术的明智决定。


本研究的目的在于更好地理解影像学和MIA在手术前评估附件肿块中的关系。


材料和方法

受试者在美国44个地点参加前瞻性研究(图1),包括初级护理妇女保健门诊、妇产科团体、妇科肿瘤学诊所、社区和大学医院、及健康维护组织。这些数据来自2个已发表的全国性试验。两个试验的入选标准和排除标准完全相同。入选标准包括:年龄≥18岁的女性,根据记载患有卵巢肿瘤并计划在影像学检查后3个月内执行手术,同意静脉切开术,且签署了知情同意书。排除标准是年龄<18岁,没有计划手术干预,拒绝静脉切开术,5年内被诊断为恶性肿瘤(非黑瘤皮肤癌除外)。绝经期被定义为至少12个月没来月经,或者在未说明的情况下年龄≥50岁。每个研究地点均获得了机构审查委员会批准。所有数据被收集到标准化病例报告表中。


生物标志物测量由Quest Diagnostics Inc(Chantilly,VA)执行;盲法确认试验在约翰·霍普金斯医学院(Baltimore,MD)和Specialty Laboratories(Valencia,CA)执行。


MIA试验

OVA1试验,已获得美国食品药品监督管理局(FDA)批准并上市(Quest Diagnostics,Madison NJ),包含CA 125-II、转铁蛋白、甲状腺素运载蛋白(前白蛋白)、载脂蛋白A1和β-2-微球蛋白检测。OvaCalc软件程序(Vermillion Inc,Austin,TX)结合每个试验的值,利用专有算法生成各自的卵巢恶性肿瘤风险指标评分。数字结果范围是0.0-10.0,及以下临床报告:绝经前期:低恶性风险,<5.0;高恶性风险,≥5.0;绝经后期:低恶性风险,<4.4;高恶性风险,≥4.4。


卵巢影像学

前瞻性收集并回顾性分析了手术前影像学结果,包括计算机断层(CT)扫描、超声扫描或磁共振成像。允许参加研究的医生选择执行的影像学类型。从分析中删除磁共振成像结果,因为数量太少(n=43)。根据研究群体的单变量分析来选择高风险影像学标准。以下变量在统计学上可预测卵巢恶性肿瘤(每个变量P<0.001):实体肿瘤成分或乳头状卵巢形态学问题(优势比[OR],4.2;95%置信区间[CI],3.0-5.8),腹水(OR,8.0;95% CI,5.3-12.1),及转移植入物(OR,28.3;95% CI,9.9-80.8)。腹水和转移植入物与晚期疾病高度相关;但是,因为MIA不适用于有晚期卵巢癌临床表现的女性,所以腹水和转移植入物被特意从分析中删除。在本研究中,高风险影像学被定义为具有实体或乳头状成分表现的所有复杂卵巢肿瘤。低风险类别包括没有高风险结果的单室或有隔膜的囊性卵巢肿瘤。原始数据集中没有记录肿瘤体积。研究参与者被允许进行1个以上影像学试验,每个试验被视为独立的事件。所有影像学报告由2个主要作者单独审查。


预测卵巢恶性肿瘤的模型

使用逻辑回归模型检查恶性肿瘤风险与MIA评分之间的关系,在模型中加入绝经状态以后第一阶(线性)项是高度相关的(P<0.001)。在逻辑模型中增加二次项或更高阶的MIA对拟合(fit)没有影响(X2检验,2.8;df =1;P=0.10)。该模型已扩展成包含逻辑发现(低风险、高风险),绝经状态,和MIA评分。选择一个临界值以获得与单独MIA相似的灵敏度(92.9%)。该模型采用与该研究群体中测量的相同恶性肿瘤患病率(25%)。


统计学方法

将数据发送至Applied Clinical Intelligence(Bala Cynwyd,PA)以进行统计学评估。根据绝经状态、影像学类型、病理学诊断和恶性分期对生物标志物和影像学结果进行分层。计算临床相关标准,比如灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)、恶性肿瘤百分比和OR。用整个研究群体的患病率(25%)测定调整后的PPV和NPV。为了比较,还计算在低患病率(10%)的PPV和NPV。


这些计算假设研究群体在各个方面均不会发生变化,除了恶性肿瘤患病率。在适当的情况下,建立95% CI。使用实际MIA评分结合绝经状态及影像学评估结果,逻辑回归被用于建立恶性肿瘤风险模型。使用SAS(版本9.2;SAS Institute Inc,Cary,NC)软件执行统计学分析。


结 果

结合2个大规模、连续的前瞻性临床试验的数据形成了该研究群体。在参加2个试验的1110位女性中,1024位女性可以评估影像学结果和MIA评分。75%的受试者(770/1024位女性)由普通的妇科医生招募;剩下的25%受试者由妇科肿瘤专家招募。符合以下标准的女性从分析中排除:未执行手术(27例)或手术延迟3个月以上(6例),未获得组织或未发送病理学报告(34例),血液标本不可用(9例),受试者以前患有癌症(5例),影像学在入选范围外执行(4例),或者影像学研究没有确认附件肿瘤(1例)。研究群体的人口统计特征和临床特征在表1中概述。手术发现包括769例良性卵巢肿瘤和255例恶性肿瘤。有241例卵巢恶性肿瘤(24%),包括158例上皮性卵巢癌、14例非上皮性卵巢恶性肿瘤、45例卵巢交界性肿瘤、和24例转移至卵巢的恶性肿瘤。在14例非卵巢恶性肿瘤中,1位患者同时患有交界性卵巢肿瘤和子宫内膜癌;剩下的患者虽然影像学研究显示附件肿瘤,实际是盆腔恶性肿瘤加上正常的卵巢组织学问题(子宫肿瘤,5例;腹膜后肿瘤,2例;输卵管肿瘤,1例;小肠肿瘤,1例;盆腔淋巴结肿瘤,1例;胆囊肿瘤,1例;子宫内膜肿瘤,1例;平滑肌肉瘤,1例)。表1中的超声扫描或CT扫描数据排除了影像学研究显示转移植入物或腹水的受试者。

表1总.jpg


MIA显示在所有可评估受试者中61%为高风险结果,预测恶性肿瘤的统计学性能如下:灵敏度92%;特异性49%;PPV和NPV分别为38%和95%。只评估由非妇科肿瘤专家招募的女性群体时(n=770),测试性能结果如下:灵敏度90%;特异性54%;PPV和NPV分别为35%和95%。


1024位女性做了1232个影像学检查(204位女性做了多种形式的影像学检查),99%的参与者做了超声或CT扫描(表2)。13%的受试者(133/1024位女性)在研究招募时有晚期疾病的放射学证据(腹水,11.5%;转移,3.6%;两者皆有,2.1%)。与超声扫描相比,CT扫描发现的腹水更有可能代表恶性肿瘤(77% vs 53%)。排除晚期疾病的放射学发现时,49%的超声扫描和61%的CT扫描被归为高风险。高风险超声影像学标准预测恶性肿瘤可能性的统计学性能如下:灵敏度77%;特异性55%;调整后PPV和NPV分别为36%和88%。CT扫描预测恶性肿瘤的性能是灵敏度80%;特异性49%;调整后PPV和NPV分别为34%和88%(表3)。

表2.png

表3.png

表4.png


如果应用了1个以上试验,性能受试验结合方式的影响。超声扫描与MIA并行组合(“或”组合):灵敏度98%;特异性31%;调整后PPV和NPV分别为32%和98%(表4)。预测早期恶性肿瘤的结果相同(灵敏度95%;特异性相同)。超声扫描和MIA串联组合(“和”组合):灵敏度68%;特异性75%;调整后PPV和NPV分别为48% 和 88%(表4)。预测早期恶性肿瘤的结果相似(灵敏度69%;特异性相同)。为便于说明,计算在低恶性肿瘤患病率(10%)的PPV和NPV,结果如下:MIA或超声扫描:PPV,14%;NPV,99%;MIA和超声扫描:PPV,23%;NPV,96%;MIA或CT扫描:PPV,12%;NPV,99%;MIA和CT扫描:PPV,21%;NPV,96%。患病率的调整没有改变灵敏度和特异性。对于交界性卵巢肿瘤,MIA或超声扫描的灵敏度是100%(18/18),MIA和超声扫描的灵敏度是66.7%(12/18)。只有1.6%的卵巢肿瘤(4/255)被超声扫描或CT扫描显示为恶性肿瘤,而MIA显示低风险(OR,0.04)。


美国妇产科学会建议将CA 125临界值200IU/mL(绝经前期)和35IU/mL(绝经后期)用于附件肿块女性的手术前评估。MIA或超声扫描的灵敏度高于CA 125-II或超声扫描(98% vs 91%;X2=6.0;P=0.014);类似地,MIA和超声扫描的灵敏度高于CA 125-II和超声扫描(68% vs 41%;X2=25.0;P<0.001)。重要的是,CA 125-II或超声扫描的组合漏诊了6例恶性肿瘤,CA 125-II和超声扫描的组合漏诊了25例恶性肿瘤,但是MIA与超声扫描的组合正确鉴别出了所有这些病例。以下统计学数据是CA 125-II与超声扫描的具体统计学结果:CA 125-II或超声扫描:灵敏度91%,特异性53%;PPV22%和NPV98%;CA 125-II和超声扫描:灵敏度41%,特异性95%;PPV55%和NPV92%。


恶性肿瘤的风险随着MIA评分增加而增加;此外,与低风险影像学结果相比,高风险影像学结果的恶性肿瘤可能性更大。使用实际MIA评分结合绝经状态及超声扫描(图1)或CT扫描(图2)结果,逻辑回归被用于建立恶性肿瘤风险模型。使用该模型预测恶性肿瘤风险,MIA与超声扫描的灵敏度是89%,特异性59%,PPV和NPV分别为24%和97%。MIA与CT扫描的逻辑回归分析显示灵敏度89%,特异性46%,PPV和NPV分别为45%和90%。

技术导航-卵巢影像-图1.jpg

图1. 根据超声结果和绝经状态,在OVA1评分范围内预测恶性肿瘤风险

技术导航-卵巢影像-图2.jpg

图2. 根据计算机断层扫描结果和绝经状态,在OVA1评分范围内预测恶性肿瘤风险

技术导航-卵巢影像-图3.jpg

图3. 无症状卵巢癌评估流程图


评 论

本报告通过展示卵巢影像学检查对临床风险评估的影响,丰富了我们对MIA试验的理解。已发表的盆腔超声报道确定了,单室和有隔膜的囊性卵巢肿瘤发展为恶性肿瘤的风险非常低。很多报道已证明,实体区域或内部乳头状卵巢肿瘤与恶性肿瘤风险增加有关,并需要更全面的评估。结合影像学、体格检查和MIA的算法(美国妇产科学会-卵巢肿瘤转诊的多变量指标分析标准)已被提出,但未经确认。本研究强化了一个概念:影像学和MIA试验互为补充,两者结合起来将为卵巢肿瘤的恶性风险提供更全面的理解(图1、图2和图3)。


这2个试验的结合方法显著影响着结果。MIA本身就是一个非常灵敏的试验,假阴性结果很少。当MIA与超声扫描或CT扫描并行组合时,这些数据量化了预期的灵敏度(超声扫描,98%;CT扫描,97%)和NPV(超声扫描,99%;CT扫描,94%)增加。在61例I期恶性肿瘤中,当MIA或影像学任一结果为高风险时,60例恶性肿瘤被正确鉴别。


考虑到个别生物标志物和其他算法在鉴别早期癌症中的明显劣势,这种方法很有用。当影像学研究和MIA试验都为低风险时,假阴性率降低至2%。然而,需要注意的是,与超声扫描或CT扫描并行组合的测试特异性较低(分别是31%和22%)。当MIA与影像学串联组合时,假阳性结果更少,增加了测试特异性(超声扫描,75%;CT扫描,70%)。在讨论手术的迫切性、计划手术的类型、具体手术方法、和/或患者咨询及同意时,理解测试组合的具体统计学影响可能有用。为了这个目的,逻辑回归模型在具体MIA评分数值和影像学结果的基础上提供了风险分层(图1和2)。


高风险影像学标准有意地排除了晚期疾病(腹水、转移)的放射学证据,因为MIA试验不适用于有晚期卵巢癌临床表现的女性。使所有44个OVA1研究地点都使用更严格的影像学算法是不现实的。在作者看来,这些简化的影像学标准更能反映标准的临床超声扫描而不是高度专业的妇科超声检查。与其他发表的综合评分系统的成果相比,影像学(特别是超声扫描)的适度性能似乎支持使用更稳健的影像学算法。在本研究中,CT扫描发现的转移植入物通常可预测恶性肿瘤(31/35);虽然转移植入物存在表示患恶性肿瘤(7/7),但是超声扫描很少发现转移植入物。有趣的是,47%的超声扫描发现没有恶性疾病的女性有盆腔腹水。与超声扫描相比,CT扫描发现腹水更可能预示恶性肿瘤,进一步证实了一个概念:超声扫描应显示盆腔外液体以正确归类为恶性腹水。


在OVA1和OVA500试验中由非妇科肿瘤专家招募的患者患恶性肿瘤的概率分别是26.8%(72/269)和18.6%(92/494)。本研究中的恶性肿瘤患病率会比预期更高,有2个主要原因:(1)研究定义要求计算所有恶性肿瘤,包括卵巢癌和非卵巢癌、非上皮性恶性肿瘤、低恶性风险的肿瘤、以及转移至卵巢的肿瘤(表1)。(2)参加研究的所有受试者都被安排了手术,这是对风险极高卵巢肿瘤的选择。总的来说,这样形成了一个高恶性肿瘤患病率的丰富群体,即推荐使用该试验的代表性群体。


本文的研究范围不包括比较已发表的用于手术前评估卵巢肿瘤的所有策略,鉴于研究群体不同,也不允许进行比较。相关发表文章也没有进行头对头比较MIA试验与恶性风险指标、恶性风险算法、美国妇产科医师学会的卵巢肿瘤转诊指南、或各种其他影像学和生物标志物算法。相反,本研究旨在更好地理解卵巢影像学对MIA评分的临床解读的影响。


本研究的优势包括大规模的、多中心的前瞻性数据收集,独立的生物标志物确认,严格标准化的影像学审查,以及涵盖所有卵巢肿瘤类型。大多数受试者是在MIA预期应用的初级护理地点招募的。当然也有很多研究局限性需要考虑。首先,虽然患者招募是前瞻性的,但是本研究是回顾性评估影像学结果,有选择性偏差的可能。其次,OVA1和OVA500试验都旨在测量试验预测恶性肿瘤的准确度,而不是试验对患者转诊的影响;因而,关于试验对转诊影响的直接结论有限。需要进行前瞻性随机化试验以测量MIA试验对患者转诊的影响。第三,参加研究的提供者可能因为他们是试验的参与者而改变其行为或解读。这种观察者偏差将潜在影响用于本研究的两个试验的数据。最后,从这些数据得出的结论反映的是被研究的群体,可能未必适用于其他群体,尤其是不同癌症患病率的群体。


本研究探索了盆腔影像学与MIA试验之间的关系,而不是预期用作一种新的手术前卵巢癌评估算法。血清生物标志物和影像学是一组互补的临床工具。我们知道,当MIA评分根据影像学风险和绝经状态进一步分层时,能够更好地理解卵巢恶性肿瘤的临床风险(图1和2)。并行测试的高灵敏度不太可能漏诊卵巢恶性肿瘤;串联测试的解读明显提高了测试特异性。最终,卵巢恶性肿瘤的风险预测同时受影像学结果和MIA评分数值的影响,可使准备手术的患者和外科医生均受益。


摘自《Research》,版权归其所有,仅供内部参考。

编译:王小茜、张凯

审校:姜妤、方研、贲文锐