基于质谱的临床蛋白质组学在癌症诊断和治疗中的前沿研究
【摘要】人们开展了大量组学研究,主要是基因组学分析来全面了解癌症的分子生物学特征。近年来,蛋白质组学分析的深度急剧增加,它全面分析了直接在体内发挥作用的蛋白质和分子。利用质谱(MS)的蛋白质组学是一种很有前景的技术,可以直接检测蛋白质存在形式(proteoforms),包括翻译后修饰和源于基因组畸变的变体。基于MS的蛋白质组学的最新进展使我们能够直接、深入和定量分析各种癌症相关蛋白质的表达水平和癌症特异蛋白形式以及细胞系和组织样本中随癌症发生和进展而波动的蛋白质。此外,蛋白质组学数据与基因组、表观基因组和转录组数据的整合形成了不断发展的蛋白质基因组学领域,该领域已经产生了新的生物学和诊断知识。深度蛋白质组学分析在各个方面提供临床上有用的信息,包括了解癌症发展和进展的机制以及发现诊断和药物开发的靶点。此外,还有望为促进个性化医疗做出重大贡献。在这篇综述中,重点介绍了基于MS的临床蛋白质组学的最新进展和影响,重点关注肿瘤学。
【关键词】生物标志物;癌症;糖蛋白质组学;质谱法;蛋白质基因组学
癌症生物标志物是不同类型癌症特有的蛋白质和其他物质,利用酶或抗体检测这些标志物在确定诊断和治疗策略方面发挥了重要作用。近年来,基因组学技术的进步导致了液体活检在癌症基因组医学中的应用。液体活检用于在体液(血液、尿液等)中寻找癌症的痕迹,液体活检的广泛应用主要是由于基因组分析技术的创新进步使单细胞分析成为可能。由于其无创、前瞻性采样的低风险,这种技术受到了广泛关注。随着高灵敏度和特异性基因分析技术的发展,包括FoundationOne Liquid CDx和Guardant 360 CDx在内的多项检测已被美国食品药物管理局(FDA)批准作为伴随诊断的液体活检检测。最近在各种组学分析技术和数据科学方面取得的重大进展也令人瞩目,虽然基因诊断已经在临床上得到了应用,但未来有望更好地整合多种模式的数据以超越单组学。
蛋白质负责细胞的大部分生化功能,并与其他蛋白质和生物大分子有物理或功能上的联系。 要了解单蛋白质的功能及其在复杂生物系统中的时空动态和波动,就必须测量这些系统中蛋白质的变化和丰度。此外,蛋白质是大多数癌症疗法的靶点,包括在不断发展的免疫疗法领域。因此,临床蛋白质组学变得越来越重要。然而,临床样本中的蛋白质组非常复杂,难以进行详细分析。表达蛋白质的动态范围取决于基质类型,从组织样本中的8个数量级到血浆等体液中的约12个数量级不等。虽然蛋白质组学远远落后于基因组学技术,但基于MS的蛋白质组学在过去几年中已取得了显著进步,并越来越多地应用于各种生物学研究。在最近的临床蛋白质组学中,通过覆盖整个蛋白质组或深入研究翻译后修饰(PTMs)或癌症特异性氨基酸改变来探索新型生物标志物和治疗靶点。在这篇综述中,我们概述了癌症研究中最先进的MS技术,以及用于开发特异性癌症生物标志物的靶向糖型分析和用于鉴定肿瘤特异性免疫肽的免疫肽组学。
一、应用最先进的蛋白质组学开发诊断和治疗药物的方法
1. 蛋白质组学MS平台概述:质谱(MS)技术已成为表征蛋白质全局和个体的重要方法,基于MS的蛋白质分析的典型方法是自下而上的蛋白质组学(图1)。首先,将血浆蛋白从细胞或组织样本中提取的蛋白质酶解成肽。肽通常通过液相色谱(LC)分离,然后通过电喷雾电离质谱(ESI-MS)进行分析。LC-ESI串联MS(LC-ESI-MS/MS)数据提供了样本中肽的丰度和序列信息。全局蛋白质组学用于获得样本中蛋白质谱的整体图像,这些方法用于发现阶段,可提供无偏差的蛋白质组完整覆盖,可以在一次实验中鉴定和定量数千种蛋白质。另一方面,在靶向蛋白质组学中,需要分析的蛋白质数量相对较少(通常<10),因此,靶向蛋白质组学常用于候选验证。这种方法需要靶蛋白质的氨基酸序列信息,以设置特定于每种蛋白质的最佳质量参数。例如,多反应监测(MRM)/选择反应监测(SRM)通过结合第一个四极杆(Q1)过滤器(允许靶肽离子通过)与Q3过滤器(允许碎裂离子后碎片离子通过)来特异性地检测和定量特定肽(图1)。通过使用稳定同位素标记肽或重组蛋白库作为内标,也可以对靶蛋白进行绝对定量。与全局蛋白质组学相比,靶向方法的主要优势在于重现性、灵敏度和通量,靶向方法还可与免疫沉淀等富集方法相结合,有助于深入表征靶蛋白。
图1. 蛋白质组学的液相色谱串联质谱(LC-MS/MS)工作流程
提取蛋白质并通过胰蛋白酶等酶消化成肽,消化之前可以进行免疫沉淀等富集步骤,肽通过液相色谱分离,然后通过质谱进行检测。
最近,已经报道了许多使用替代MS采集策略的研究,例如数据非依赖性采集(DIA)。DIA也称为顺序窗口采集所有理论质谱(SWATH-MS),是一种全局蛋白质组学方法,作为一种能够实现全面、定量和可重复分析的方法,有望在未来发挥越来越大的作用。在DIA中,理论上样本中的所有肽都会在指定的质量电荷比(m/z)MS/MS图谱。然后将这些光谱与预定义的光谱库进行匹配以鉴定蛋白质。虽然DIA数据集的复杂性给计算处理带来了困难,但最近数据科学领域的技术创新使其变得更加实用,现在可以一次性鉴定10,000种蛋白质。上述MS方法获得的数据复杂且规模庞大,信息学平台的最新进展支持对蛋白质组学数据集的稳定和精确解读。
2. 利用基于MS的蛋白质组学探索血浆中的生物标志物:它与组织活检相比,基于液体的检测具有许多优势:微创、纵向采样风险低、劳动强度低并且可实时反映患者的肿瘤状态。然而,只有大约30种血液或体液生物标志物被FDA批准用于临床。生物标志物开发的最终目标是建立可靠、准确和临床适用的疾病诊断方法。长期以来,基于MS的蛋白质组学一直是在各种体液中进行癌症生物标志物分析的有力工具,虽然血液是临床检测中使用最广泛的体液,也是潜在生物标志物的重要来源,但血浆蛋白质组的研究一直具有挑战性,因为高浓度的蛋白质(如白蛋白)往往会掩盖低浓度的潜在疾病生物标志物。然而,基于MS的蛋白质组学检测系统和样本制备方法的进步,例如去除高丰度蛋白质或蛋白质或肽段的分离,正在部分克服这些问题。最近,Blume等人利用独特的纳米颗粒实现了超过7个数量级的血浆蛋白质组分析覆盖率,他们成功地在一个血浆池中以高重复性检测了超过1000种蛋白质,包括53种FDA批准的蛋白质生物标志物。尽管研究人员付出了巨大努力,但发现新型血清学生物标志物并非易事,解决这一问题的方法之一是将多种标志物结合起来,以提高检测性能。通过血浆/血清蛋白质组学发现生物标志物的一个成功例子是OVA1检测。OVA1是FDA批准的血液检测,用于评估5种卵巢癌相关标志物的水平(即CA125、β-2微球蛋白、转铁蛋白、载脂蛋白A1和前白蛋白)。通过结合多种蛋白质来提高癌症标志物性能的挑战仍在继续,鉴于计算机科学的飞速发展,未来的新趋势可能是结合不同模式的参数进行评分。例如,CancerSEEK检测分析了在癌症中常见的16种基因(如TP53和KRAS)和多种癌症相关蛋白(如CEA和AFP)的突变,并使用逻辑回归算法对其进行评分。
二、癌症精准生物标志物的翻译后修饰分析
1. 蛋白质存在形式的MS分析:蛋白质存在形式是由遗传变异、剪接异构体和PTMs(蛋白质翻译后修饰,例如磷酸化和糖基化)产生的不同蛋白质形式。在几个重要的临床领域,已经确定并报告了蛋白质存在形式与疾病进展有关,包括癌症。目前,MS用于分析蛋白质存在形式,提供靶蛋白的深入定量信息。尽管近年来MS技术的改进使蛋白质的大规模鉴定成为可能,但分析复杂样本中的蛋白质存在形式仍然非常具有挑战性,这是因为这些变体的丰度通常只占样本的一小部分,因此,有必要采取适当的富集步骤来深入分析蛋白质变体。确定癌细胞特异性表达的PTMs可以大大提高已知癌症生物标志物的诊断效果。近年来,癌症基因组图谱(TCGA)发现了许多与癌症相关的糖基化相关基因表达的改变。异常糖基化已被明确定义为癌症的特征之一,并有望成为潜在的生物标志物。聚糖分析的新技术和新方法支持结合蛋白骨架对癌症特异性糖型进行定量和定性表征,从而为临床应用提供足够的灵敏度和特异性。例如,我们总结了关于前列腺特异性抗原(PSA)糖型分析的关键研究,以提高PSA的诊断准确性。
2. PSA糖型作为前列腺癌生物标志物:前列腺癌是全球男性最常诊断出的癌症,在美国占所有新诊断癌症的27%。前列腺特异性抗原(PSA)可在前列腺癌患者的血液中检测到,用于诊断、跟踪治疗反应和监测临床病程。然而,由于PSA的特异性较低,它在筛查无症状男性前列腺癌中的作用还存在争议。事实上,只有25%的PSA水平在灰区(4.0-10.0ng/mL)的病例被病理证实为前列腺癌。近年来,几种新的生物标志物,如前列腺健康指数(PHI)和前列腺癌抗原3(PCA3),已经可用于提高前列腺癌诊断的准确性。最近,一种提高血清PSA检测特异性的方法是检查PSA上的癌症特异性糖型。随着聚糖结构分析技术的不断进步,一些有前景的聚糖结构已被确定为生物标志物。α2,3-唾液酸化、核心岩藻糖基化、GalNAcβ1-4GlcNAc(LacdiNAc)结构作为有前景的候选结构备受关注(图2),相应的临床应用平台也正在开发中。
图2. 血清PSA上的前列腺癌特异性糖型
通过MS分析糖肽可以鉴定靶蛋白的糖基化位点和完整的糖链结构。通过深度定量MS,我们发现与良性前列腺增生(BPH)患者相比,前列腺癌患者中多唾液酸化LacdiNAc结构的丰度显著升高(图3)。LacdiNAc结构在人体内表达较低,而据报道其在前列腺癌、卵巢癌和胰腺癌中表达增加。特别是,在前列腺癌患者中观察到负责LacdiNAc结构的糖基转移酶B4GALNT4的表达增加。通过logistic回归分析建立了一个新的诊断模型,即PSA G-指数,其AUC为1.0(灵敏度和特异性均为100%,n=30)。这些研究表明,癌症特异性聚糖结构可以成为癌症诊断的有用靶点。最近,糖信息平台的改进也使糖蛋白的全球蛋白质组学研究成为可能。随着分析技术的改进和样本分析效率的提高,糖蛋白组学有望成为发现生物标志物的一种有前景的工具。
图3. 前列腺组织样本的凝集素组织化学染色和PSA产生前列腺癌特异性糖型的模型
LacdiNAc结构在正常前列腺组织中很少表达,而前列腺癌细胞表现出特征性的表达趋势,表达含有LacdiNAc和α2,3-唾液酸化结构的糖蛋白,导致前列腺癌患者PSA上的多唾液酸化LacdiNAc结构增加,这些发现与MS分析PSA糖型的结果一致。
三、癌症蛋白质基因组学
随着下一代DNA测序和RNA测序(RNA-seq)等技术的进步,基因组分析在癌症中显示出巨大的影响,包括驱动突变的识别和靶向治疗的开发。全基因组测序(WGS)、全外显子组测序(WES)和RNA-seq等来自临床样本(包括癌症组织)的深度测序分析可用于构建个性化的蛋白质组数据库,有了这些个性化的数据库,就能通过MS鉴定出携带癌症特异性体细胞突变的突变蛋白质,这一基因组学和蛋白质组学的整合领域被称为蛋白质基因组学(proteogenomics)。根据研究目的和样本类型(如临床前癌症模型和肿瘤样本),所有基因组、表观基因组和转录组数据都可用于蛋白质基因组学。最近,随着MS的灵敏度和深度的提高,癌细胞体细胞突变引起的氨基酸改变的蛋白质基因组学检测得到了蓬勃发展。癌症蛋白质基因组学的一个例子是免疫肽组学(immunopeptidomics),这是一种从个性化蛋白质组数据库中检索免疫肽序列的肽基因组学(见图4)。人类白细胞抗原(HLA)分子在癌细胞表面呈递肿瘤抗原是肿瘤杀伤T细胞识别癌细胞的重要触发因素,基于T细胞的癌症免疫疗法的疗效取决于对癌细胞表面HLA结合肽的识别。因此,对于癌症疫苗和基于T细胞的适应性免疫疗法的开发,表征和分类内源性表达来源蛋白的免疫原性表位至关重要。由癌细胞体细胞突变引起的癌症特异性氨基酸改变是肿瘤特异性免疫肽(新抗原)的来源之一,这些免疫肽在免疫细胞识别癌细胞为非自身细胞中发挥重要作用。到目前为止,MS是唯一能直接鉴定实际呈现的免疫肽的氨基酸序列的分析技术。
图4. 通过蛋白质基因组学方法进行免疫肽组学的工作流程示意图
图示为免疫肽的一般样本制备(左图)和通过蛋白质基因组学方法进行的新抗原鉴定(右图)。癌症免疫治疗的核心介质是仅由癌细胞特异性呈递的免疫肽,肿瘤特异性免疫肽称为新抗原。免疫肽通过形成人类白细胞抗原(HLA)复合物呈递到细胞外,用免疫沉淀分离HLA复合物后,可通过HLA复合物的解离和免疫肽纯化过程获得富集的免疫肽样本(左图)。在发现阶段,一般蛋白质组学方法指的是人类蛋白质组的经典序列,只能识别非肿瘤细胞和正常细胞都可以呈递的抗原(右上图),因此,仔细验证抗原的癌症特异性(例如,抗原的来源蛋白是否在癌细胞中高度表达)对于实际应用至关重要。蛋白质基因组学方法通过参考由基因组和转录组信息构建的癌症特异性突变的氨基酸序列来识别新抗原(右下图)。通过MS鉴定新抗原通常可确保目标抗原的自然和实际呈递以及癌症特异性,从而有助于更有效地选择抗原。
蛋白质基因组学方法的进步扩大了对新抗原的探索,不仅包括源自编码区的典型肿瘤抗原,还包括非典型肽(即,源自非蛋白编码转录本的异常翻译和非编码基因组区的异常或调控转录的抗原)(见图5)。通过复杂的全局免疫肽组分析从临床样本中鉴定出大量具有如此多样性的免疫肽,将有助于绘制癌症特异性免疫肽图谱,癌症特异性免疫肽谱分析还有助于构建先进的癌症精准医疗预测算法。与免疫肽研究范围的扩大形成鲜明对比的是,更有针对性的靶向MS也越来越受到关注,这种方法有助于深入了解更具体的靶标,例如确定样本中是否存在所需的新抗原。由于在癌细胞中发现的大多数体细胞突变都是个人独有的,因此患者之间的新抗原重叠非常有限,从健康经济角度来看,目前,基于这些突变设计免疫疗法并不合适。另一方面,由于针对癌症驱动突变的免疫疗法在癌症患者和泛癌状态之间的重叠,预计将成为更常见的现成(off-the-shelf)免疫疗法。通过全局靶向免疫肽组学方法,我们从细胞系和结直肠癌组织中鉴定了新抗原,包括致癌的KRAS(G12V)。鉴于基于MS的方法是直接、稳健分析临床样本中免疫肽的理想方法,它将有助于选择新抗原,从而成功开发出更有效的癌症免疫疗法。这样,MS在精准医疗所必需的多组学研究中发挥着越来越重要的作用。
图5. 超越单一组学走向综合多组学
几十年前,基因组学、转录组学和蛋白质组学作为独立的学术学科被建立起来,随着深度测序技术的巨大进步,蛋白质组的新领域也随着MS技术的发展而出现. 现在,基于MS的蛋白质组学将个人的基因组蓝图与临床相关的生理学联系起来,成为蛋白质基因组学,甚至是多组学.
四、结论
本文介绍了质谱(MS)技术在肿瘤研究中的最新影响和应用,深入分析肿瘤来源的蛋白质/肽可能为癌症生物学提供重要和实用的见解。这些信息还有助于根据肿瘤学的特点和临床需求开发新型癌症生物标志物和药物。正如单细胞WES和单细胞RNA-seq是遗传分析领域的重大突破一样,最近,蛋白质组学领域也开始出现更灵敏、更创新的技术,实现了单细胞分析。这些单细胞蛋白质组学有望通过识别和鉴定罕见细胞(如癌症干细胞)和检测耐药性的早期阶段来帮助癌症研究。虽然MS技术目前还难以常规应用于临床,但样本处理和MS仪器的进一步改进有望使临床蛋白质组学达到合理的通量。另一方面,虽然MS仍然是寻找靶分子的最有效的方法,但近年来,一些基于非MS的创新技术已经被开发出来,使蛋白质的高灵敏度和多重分析成为可能。例如,由Olink公司商业化的邻近延伸分析(PEA),使用连接到独特DNA寡核苷酸上的配对抗体,实现灵敏的DNA读出方法。它与MS相比,PEA的综合性较差,但在灵敏度和特异性方面具有优势,并且所需的样本量较少。最新的PEA可以同时从几微升血液样本中检测大约3000种经过验证的蛋白质,这些新型蛋白质组学的影响将是巨大的,无论是学术上还是技术上,临床蛋白质组学将是应用蛋白质组学整合多参数数据建立新的诊断方法或理解肿瘤生物学的一个有前景的解决方案。
编译节选自:《Cancer Sci》. v. 114(5); 2023 May