生物信息学分析方法及在肿瘤诊断中的临床应用

作者:高雨濛 程歆琦
作者单位:中国医学科学院北京协和医学院(高雨濛);中国医学科学院北京协和医院检验科(程歆琦) 2023-06-30

程歆琦,医学博士、主任医师、硕士生导师。现任职于中国医学科学院北京协和医院检验科。本科毕业于中国医科大学临床医学专业,在中国协和医科大学取得临床检验诊断学硕士学位后一直在检验科一线,主要从事临床生物化学、定量免疫学检验、临床实验室管理以及内分泌疾病的实验室诊断。主持省部级以上课题3项,以第一作者和通讯作者发表SCI及核心期刊文章50余篇,其中SCI文章29篇,累积影响因子119.64。担任Practical Laboratory Medicine杂志编委,是Endocrine、Plos One、J Clin Lab Anal、中华检验医学杂志、中华内科杂志、中华预防医学杂志等的审稿专家。主要社会兼职包括:ISO15189医学实验室认可评审员;中国分析测试协会标记免疫分析专业委员会常委;中国临床肿瘤学会(CSCO)甲状腺癌专家委员会委员;中国老年医学学会检验医学分会常委;中国医学装备协会检验医学分会委员;北京医学会检验医学分会青年委员等。

高雨濛,在读研究生,南京医科大学第一临床医学院,2019级医学检验技术专业毕业生,北京协和医学院2023级研究生。于2022年7月获第六届全国医学检验技术专业大学生形态学大赛一等奖,2022年12月获得南京医科大学第一届“欧蒙奖学金”,连续三年获得校级优秀学生二等奖学金,获得优秀团员、优秀班干部、三好学生及优秀毕业生的荣誉称号等。

【摘要】肿瘤由多因素参与,严重危害人类身体健康并降低了生活质量。大多恶性肿瘤不易监测,发病隐匿,被发现时大多已处于中晚期,因此严重降低了患者的存活率。因此,寻找更多的特异且灵敏的肿瘤诊断标志物十分重要。随着高通量检测和分析技术的快速发展,生物信息学技术可对海量的肿瘤数据进行收集和整理,综合运用生物信息学数据库及相应方法有助于肿瘤诊断标志物的发现,为众多恶性肿瘤,如结直肠癌、胰腺癌、乳腺癌等癌症诊断提供了新方向,奠定理论基础。在这篇综述中,我们介绍了生物信息学的常用数据库及分析方法、临床应用以及总结了这种新的模式在肿瘤诊断应用的成果,总结并讨论分析其未来展望。

【关键词】肿瘤;生物信息学;诊断;基因芯片

肿瘤是一种复杂的疾病,也是多因素参与的疾病。正常细胞转化为肿瘤细胞的过程涉及逃避免疫攻击、恢复能量代谢、诱导血管生成等[1]。这些阶段代表了一个复杂的信号调控网络,因此,肿瘤研究不仅要考虑整体,还要考虑跨时间和空间。在肿瘤研究过程中,获得了大量的数据,这增加了肿瘤研究的难度。在研究肿瘤的过程中,科学研究关注的重点是肿瘤相关基因的功能及肿瘤细胞信号通路。基因是人体最主要的遗传物质[2],因此,只有越来越多地了解与不同肿瘤相关的基因,并筛选出其中的关键基因,才能更好的预测癌症的发生,监控癌症的病变进展,从而才能采用效果更好的个体化治疗方案,最后达到降低患者死亡率,提高患者生存率的目的。近年来,高通量检测和分析技术的发展导致了癌症生物学数据的指数级增长,使用数据挖掘方法从大量的数据中确定关键基因和突变,可能有助于阐明癌症发展的机制。生物信息学(Bioinformatic)是以计算机为工具,利用信息技术收集、组织和分析肿瘤学研究中的数据[3]。它的出现从不同的应用角度收集和整理了目前大量的肿瘤研究结果,并根据不同的研究目的建立了多个具有不同功能的数据库,利用这些数据库来研究肿瘤,丰富了我们的研究手段[4]。科研人员可以将其研究的数据共享到开放的数据库中,例如癌症基因图谱计划(The Cancer Genome Atlas,TCGA)[12]和基因表达综合数据库(Gene expression omnibus,GEO)[13]。数据库中收集了大量实验室中开展的相似的实验所得的数据,因此形成一个以海量生物信息数据为基础的一种全新的生物学研究模式,并且在疾病诊断领域也日趋被研究者使用。这种研究模式下,我们理论先行,接着再进行实验验证。这种新的研究模式业已在结直肠癌[29-35]、胰腺癌[39-41]、乳腺癌[46-48]、胃癌[50-52]、膀胱癌[53-53]、肺癌[55]、卵巢癌[62]等疾病的相关诊断预测研究中取得了成果,在本文中,我们介绍了生物信息学的常用数据库及分析方法、临床应用以及总结了这种新的模式在肿瘤诊断应用的成果,并加以总结与讨论分析其未来展望。

一、生物信息学概述

生物信息学是一门交叉学科,探索、开发和使用计算工具和计算方法来处理生物学、医学、计算机科学和其他领域的数据[3]。从广义上讲,生物信息学是将信息科学方法和技术应用于研究生物过程中存储和传输的信息,以及研究和分析生物体的细胞、组织和器官的生理、病理和药理过程中的各种生物信息[5]。从广义上讲,生物信息学是一门生命科学信息科学,它是将信息科学理论、方法和技术应用于生物分子数据的管理、分析和使用,或者说是一门利用计算技术研究生物系统规律的学科[6]。生物信息学研究将集中在数学和信息科学的新技术和方法的开发,包括三个方面:生物分子数据的收集和管理,数据分析和挖掘,以及分析工具和手段的开发,如生物分子序列排列工具、基因识别工具、预测生物分子结构的工具和分析基因表达数据的工具[7]。生物信息学技术是后基因时代的核心技术之一,为整合和分析癌症大数据提供了极大地便利。科研人员可以将其研究的数据共享,因此数据库中收集了大量实验数据,并且大家可以在这些数据平台免费下载和收集,方便后续分析其中蕴含的生物学意义。以海量生物信息数据为基础的一种全新的生物学研究模式在疾病诊断领域也被研究者广泛使用[8-9]。这种研究模式下,我们先用数据信息进行理论分析,预测可能的研究方向,然后应用传统的生物试验方法进一步临床验证。科研人员一般将研究分为两部分,第一部分先应用生物信息学方法,在大数据库中找到已知的肿瘤相关差异表达基因(DEGs),并且这些基因是根据不同实验条件和不同实验样本这种筛选而来的。接着这些DEGs再根据聚类分析、功能富集分析(采用超几何检验(hypergeometric test)等参数或非参数型方法来计算各个通路的富集显著性(P-Value)并予以校正),将功能相似或相关的基因归类,筛选出与该基因组功能显著相关的类别[3]。常用的生物信息学数据库有很多,GO(Gene ontology)[16]、KEGG(Kyoto Encyclopedia of Genes andGenomes)[17]等数据库是实际工作中广泛使用的;DAVID(The Database for Annotation,Visualization and Integrated Discovery)[14]、WGCNA(Weighted correlation network analysis)[19]等软件是常用的分析软件。第二部分研究者需要在蛋白层面利用传统技术对筛选出来的肿瘤相关基因进行进一步蛋白表达验证。因为蛋白质才是生命活动的具体体现者和执行者[10],因此如若想要达到寻找用于诊断特别是早期诊断的灵敏且特异的标志物的目的,从而深入研究肿瘤的发病机制,则需要从蛋白质层面出发。进行蛋白验证可以使用的常规技术包括免疫组化、免疫印迹法、酶联免疫吸附法等方法。

二、常见生物信息学数据及分析方法

为了识别具有统计学意义的差异表达基因和共表达基因,我们需要使用适当的数据库和分析工具,并进行功能注释。通过生物信息学分析,我们将路径基因组分析方法与网络分析方法相结合,在路径水平上发现关键基因。通过这种方式,也可以确定基因和路径的作用。本节总结了人类肿瘤研究中常用的数据库和生物信息学分析方法。

1. 癌症基因图谱计划(The Cancer Genome Atlas,TCGA):TCGA数据库[12](https://cancergenome.nih.gov/)是由美国国立卫生院创建的癌症基因组项目,旨在通过大规模的基因组测序和综合多维分析,发现人类常见肿瘤中基因组的改变,从而提高对于癌症的预防、诊断和治疗能力。TCGA数据包括基因组、转录组、表观遗传、蛋白组等各个组学,提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型,涵盖的数据类型广泛,包括:Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。

2.基因表达综合数据库(GENE expression OMNIBUS,GEO):GEO数据库[13](https://www.ncbi.nlm.nih.gov/geo/)是由美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)创建并负责管理和维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,可以存储和分享研究者提交的微阵列、新一代测序以及其他形式的高通量基因组数据。

3. 用于注释、可视化和集成发现的数据库(The Database for Annotation,Visualization and Integrated Discovery,DAVID):DAVID数据库[14](https://david.ncifcrf.gov/)是一个用于注释、可视化和集成发现的数据库。它将生物学数据和分析工具相结合,为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。在生物信息研究过程中,DAVID数据库主要用于差异基因的功能和通路富集分析。

4. 蛋白相互作用网络数据库(Search tool for the retrial of interacting genes/proteins,STRING):STRING数据库[15](https://string-db.org/)是欧洲分子生物实验室Peer Bork团队开发的用于分析基因间功能关系的数据库。2023年的最新版本中包含来自14094个生物体的67'592'464个蛋白质,20'052'394'041个相互作用。STRING数据库通常被应用于构建蛋白之间的相互作用网络,挖掘核心的调控基因。

5. 基因本体论(Gene Ontology,GO):GO数据库[16](http://www.geneontology.org)是一个由基因本体联合会所创立的,旨在建立一套适用于各物种,对基因和蛋白质功能进行描述和分类注释的平台。它主要包含三个方面:(1)分子功能:用于描述基因产物在分子生物水平活性作用,如催化活性、结合活性等;(2)细胞组分:用于描述基因产物在发挥作用时所处的细胞定位;(3)生物学过程:用于描述多个分子功能有序组成的,具有多个步骤的过程。GO数据库的使用能够有效的解决生物学定义混乱的现象,统一各个数据库中对基因产物功能的描述。

6.京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG):KEGG数据库[17](https://www.genome.jp/kegg/)由Kanehisa实验室开发,它是一个基于计算机的数据库,以基因组和化学信息为基本要素,结合代表相互作用、反应和相互关系网络的系统信息,以了解生物系统的高级功能。它有几个子数据库,包含基因组、生化反应、生物化学、疾病和药物,以及最常用的PATHWAY途径。KEGG PATHWAY数据库生物代谢途径分为七类:新陈代谢、遗传信息、环境信息、细胞过程、机体系统、人类疾病和药物开发。

7. 基于基因表达水平值的交互式分析平台(Gene expression Profiling Interactive Analysis,GEPIA):GEPIA[18](http://gepia2.cancer-pku.cn/)是在线生信分析工具,零代码操作。GEPIA中整理了每一个可检索的基因在不同肿瘤样本中的表达值,可以计算某个基因在某种肿瘤中的表达水平,还可以分析基因与肿瘤预后的关系、基因间的共表达等。

8. 加权基因共表达网络分析(Weighted correlation network analysis,WGCNA):WGCNA[19]是一种系统生物学方法来描述不同样本之间的基因关联模式,它可以用来识别高度协同的基因组和候选生物标志物或治疗目标,基于基因组的内生性和基因组与表型之间的关系,它可以用来分析与临床特征的显著关联,识别与肿瘤密切相关的基因模块。

三、生物信息学在肿瘤诊断中的应用

1. 结直肠癌:结直肠癌(Colorectal Cancer)是世界第三大恶性肿瘤[20],结直肠癌发病机制复杂,确切发病原因尚未完全明晰,除了人口老龄化和高收入国家普遍存在的饮食习惯外,缺乏运动、肥胖和吸烟等风险因素也会增加结直肠癌的风险[21]。结直肠癌发病隐匿,患者的诊断时期与预后存在紧密联系,多数患者确诊时已达中晚期,预后较差[22]。近年来,结直肠癌的发病率和死亡率急剧增加,据2022年公布的癌症数据显示:结直肠癌的发病率排名第三,死亡率排名第二[23]。目前结直肠癌筛查的重要方法为内窥镜,但此类检查过程中患者相对痛苦且检查费用较高,不适用于人群筛查[24]。近年来肿瘤标志物检查凭借安全、便捷及无创等优点,已被用于肿瘤诊断、肿瘤分期指导及预后评估[25]。CEA、CA-199是结直肠癌最早使用的血清标志物[26],但因为其灵敏度和特异度低,在消化道肿瘤诊断中均具有较高的阳性率,单独用于结直肠癌的诊断效果一般[27]。由于缺乏敏感性且特异性的早期诊断标志物,许多结直肠癌患者被诊断时已为晚期,预后很差[28]。因此,如今,寻找具有高敏感性和特异性的早期诊断标志物是必须的。目前已经有大量研究运用生物信息学技术的研究模式寻找到结直肠癌的潜在诊断标志物。

在研究者刘萌等人[29]的研究中,他们通过生物信息学的方法从GEO数据库下载结肠癌相关基因芯片GSE37364(27例结肠癌;38例正常对照)、GSE41328(10例结肠癌;10例正常对照)的mRNA表达谱数据集,通过GEO 2R软件在线筛选差异表达基因,通过STRING在线数据库构建蛋白互作网络分析后将结果导入Cytoscape软件并鉴定出核心基因18个(THY1、BMP4、CD44、CXCL8、GNG4、COL1A2、IL1B、SERPINE1、IGF1、SPP1、COL1A1、HGF、POSTN、TIMP1、CXCL12、GCG、IL6、PTGS2)。除此之外,研究中通过GEPIA在线工具进行表达水平验证并发现仅有GNG4、TIMP1在正常组织与结肠癌组织中表达差异具有统计学差异,提示GNG4和TIMP1可能是结肠癌诊断及预后良好的生物标志物,可为结肠癌的研究提供方向。不仅如此,在这种生物信息学的研究模式的运用下,张雨雁等人[30]发现CXCL2和THBS2参与多种分子调控通路,可作为结肠癌潜在的生物标志物,作为结肠癌诊断及预后相关基因;陈明豪[31]研究证明hsa_circ_0006332、hsa_circ_0065173、hsa_circ_0000518、hsa_circ_0006174、hsa_circ_0087862、hsa_circ_0005927可作为结直肠癌潜在的circRNA诊断标记物,且hsa_circ_0087862调控作用最强,通过hsa_circ_0087862/hsa-miR-892b/CCND1调控轴参与行使蛋白结合功能,参与生物、细胞过程正调控等功能促进结直肠癌的发生发展;阮国添[32]通过生物信息学方法验证了ULBP1,ULBP2,ULBP3,RAET1G和RAET1L在COAD上有显著性诊断学价值,且其中ULBP2具有较高的诊断价值;Liu等人[33]验证与以往报道的血清生物标志物相比,CK20/超甲基化的CLIP4有可能成为一种新的、有效的、精确的结直肠癌诊断生物标志物;蔡连续[34]和王央霞[35]于先后分别研究长链非编码RNA并分别得出lncRNA有作为诊断标志物的潜力,且其诊断模型可以预测患者的预后和LINC01106在结直肠癌组织和血浆中表达均上调,且与结直肠癌的恶性表型密切相关,可作为诊断结直肠癌的潜在分子标志物的结论。

2. 胰腺癌:胰腺癌(Pancreatic Cancer)已成为癌症的主要原因之一,对人类健康构成严重威胁。近年来胰腺癌的致病率及死亡率逐年上升,治愈率极低,术后死亡率较高,5年生存率低[23]。近年来,胰腺癌的诊断和治疗一直在稳步推进,但由于其早期症状隐蔽,80%以上的患者在诊断时已经是晚期,错过了早期手术治疗的最佳时机[36]。随着下一代测序技术的发展,生物信息学、多组学和机器学习方法已经成为精准医学研究的重要发展[63-64]。因此,探索、鉴定及验证新的理想生物标志物将会对胰腺癌的诊治具有重要意义。胰腺癌早期表现并无特异性,发生后可伴有腹痛、黄疸、腹部包块等,使得早期诊断性低但恶性程度高[37]。临床虽已证实存在的胰腺癌肿瘤标志物检测的诊断价值,如CEA,CA242等[38],然而,其敏感性和特异性一般,仍可能发生误诊,延误患者治疗,导致预后不良。近年来,胰腺癌的诊断和治疗已稳步提高,但由于早期症状的隐蔽性,大多数患者在初次诊断时已出现远处转移[36]。因此,研究、鉴定和验证新的理想生物标志物对诊断和治疗胰腺癌至关重要。

在一项由杨佳启等人[39]报道的研究中,生物信息学技术得以运用来寻找胰腺癌更加灵敏准确的诊断靶点。他们是从GEO数据库获得的胰腺癌mRNA的微阵列数据,选择GSE62165(正常样本13例和胰腺癌样本118例),GSE55643(正常样本8例和胰腺癌样本45例)和GSE62452(正常样本61例和胰腺癌样本69例)3个数据集并使用在线分析工具GEO2R筛选出108个关键差异表达基因。在进一步的研究中,他们使用STRING软件构建了DEGs的蛋白互作网络PPI,并且在Cytoscape中使用MCODE插件对相互作用的蛋白进一步筛选并对结果进行优化;然后经过GO功能注释和KEGG通路富集分析深入研究差异基因的潜在功能,最后在代谢通路中得到六个关键候选基因(LAMA3、LAMB3、LAMC2、ITGA2、ITGA3和ITGB4),且它们在胰腺癌组织的表达量均升高。接着经过GEPIA数据库分析、Kaplan-Meier生存分析以及一些生物信息学数据库的综合分析,他们发现高表达的LAMA3可能是胰腺癌发生和发展的关键的基因,同时在预测到的miRNA-mRNA调控轴中,has-miR-20b-5p-LAMA3轴在胰腺癌的发生和进展中具有较高的潜力,进一步研究发现,FGD5-AS1-has-miR-20b-5p-LAMA3调控网络可作为胰腺癌临床诊断和治疗的潜在靶点和生物标志物。类似的,许多研究者基于生物信息学这一研究模式发现了许多潜在的灵敏度和特异度高的胰腺癌诊断标志物。在尹航[40]的研究中,综合运用生物信息学技术发现7个编码蛋白质与胰腺癌密切相关,分别是RAC1、AKT1、TP53、CCND1、SRC、CDKN1A和ENO1。应用免疫组织化学方法检测,ENO1在人胰腺癌组织中的表达阳性率要显著高于胰腺癌癌旁组织,并且进一步研究发现ENO1作为胰腺癌肿瘤标志物诊断胰腺癌的敏感性为75.8%,特异性为88.2%,如若联合CA19-9可提高诊断胰腺癌的敏感性到94.5%。黎天东[41]在这一研究模式下确定了TSPAN1,TMPRSS4,SDR16C5和CTSE四个关键基因,且细胞水平的RNA-Seq数据也显示它们在胰腺癌细胞中均高表达,在进一步的研究中发现TSPAN1在胰腺癌临床诊疗中的潜力。值得一提的是,他基于机器学习构建胰腺癌的八个诊断模型:支持向量机(support vector machine,SVM);随机森林(random forest,RF);朴素贝叶斯(Naive Bayes,NB);神经网络(Neural Network,NN);线性判别分析(linear discriminant analysis,LDA);混合判别分析(Mixture Discriminant Analysis,FDA);逻辑回归(Logistic regression,LR),它们均显示出较高的诊断能力,准确率高达90%,随机森林、神经网络、灵活判别分析模型在内部验证中的准确率高达100%。为胰腺癌的诊断提供了新方向,奠定理论基础。

3. 乳腺癌:乳腺癌(Breast Cancer)位居全球女性因癌死因首位,2020年约有230万新发病例,占所有癌症病例的11.7%,是全球癌症发病率之首;死亡人数为68.5万人,是全球癌症死亡五大原因之一[23]。乳腺癌已成为一个重大的公共卫生问题,及早地发现和诊断对乳腺癌的治疗和预后至关重要。组织病理学检查是乳腺癌诊断的金标准,然而病理学家对组织图像进行人工分析的过程耗时且繁琐,且在某种程度上具有较大的主观性,可能出现诊断失误[41]。在高通量技术快速发展的时代,基于数据库处理的生物信息学技术为找到更早期、更精确的乳腺癌诊断标志物提供了便利。

微小RNA(miRNA)属于一种单链小RNA分子,同时也是一类存在于人体基因组内部能够控制蛋白表达的单链核糖核酸分子,可以被独立的基因编码或者内切酶作用于发夹结构前体(如内含子等)合成,全长18~25个核苷酸,参与转录后基因表达与调控,诱导细胞凋亡与增殖[42]。大量实验数据结果还发现miRNA可以深入参与癌症的发生、发展和转移,并起到促进癌症的发生、发展和转移或者抑制癌症的发生、发展和转移的功能[43-45]。因此,近年来有大量研究致力于应用生物信息学手段发现乳腺癌组织中高表达或低表达的miRNA,筛选适宜的微小RNA用于乳腺癌的检测,并对目标miRNA的靶点进行GO功能注释分析和KEGG富集分析,为进一步探索开发乳腺癌分子靶点奠定分子理论基础。Liu等人[46]的一项研究中提出miR-375可能是一种潜在的关键调控因子,为恶性乳腺癌的诊断和治疗发展提供了一个有前景的方向。他们运用生物信息学的方法从GEO数据库下载乳腺癌相关基因芯片GSE19536(61个组织样本)、GSE40056(8个乳腺癌细胞系)以及GSE40057(8个乳腺癌细胞系)的mRNA表达谱数据集,通过GEO 2R软件在线筛选差异表达基因,并使用GraphPad Prism7和R统计软件进行统计分析发现miR-375在乳腺癌中高表达。接着他们使用生物实验方法进行细胞培养和转染并进行分子生物学分析。最后将分析结果结合生物信息学结果,再进行在线数据库分析,使用GO和KEGG分析miR-375的生物学作用及信号通路以及UALCAN在线数据库对不同亚型的乳腺癌组织中MiR-375靶基因的mRNA表达水平进行评估,分析miR-375的目标靶基因,确定四个潜在的关键基因,包括LDHB、CPNE8、QKI和EIF5A2,被确定为miR-375的候选靶基因。该研究为乳腺癌的诊断提供了有希望的发展新方向。后又有研究继续研究微小RNA对乳腺癌的诊断的应用。尹阳等人[47]从肿瘤基因组图谱TCGA中获取原发性乳腺癌组织(1075例)和正常乳腺组织(95例)的miRNA表达数据,通过差异基因miRNA筛选、靶基因预测、高频突变基因筛选等生物信息学方法得到目标miRNA 6个,分别是:hsa-mir-4732,hsamiR-486,hsa-miR-592,hsa-miR-449b,hsa-miR-187和hsa-miR-196a,将这6个miRNA构建ROC曲线(P<0.05),预测其作为肿瘤标志物的诊断能力,其中hsa-miR-592 ROC曲线下AUC面积为0.950,hsa-mir-486为0.938,说明其作为肿瘤标志物的诊断能力良好。基于这种生物信息学的研究模式,在陈柱等人[48]的研究中,通过TCGA数据库收集乳腺癌患者的RNA序列及其临床信息,采用Kaplan-Meier法进行生存分析并且采用qPCR法检测30例乳腺癌及其癌旁组织中KIF4A的表达探讨驱动蛋白超家族成员4A(KIF4A)在乳腺癌组织中的表达及其与患者临床病理特征的关系,他们发现KIF4A在乳腺癌组织中呈高表达,有助于乳腺癌的早期诊断并与其预后密切相关。张祎[49]利用GEO数据库和GEPIA等生物信息学手段发现乳腺癌组织中的CKS2高表达,挖掘出CKS2作为乳腺癌早期诊断的关键基因。

4. 其他癌症:生物信息学快速发展的时代,不仅仅在结直肠癌、胰腺癌和乳腺癌的诊断中取得了较大的进展,在许多癌症中仍有广泛应用。在胃癌中,王宝玉[50]综合生物信息学技术整合特征选择分析,筛选出ATP4A、CNMK2N1、ESRRG、THBS2构建胃癌诊断标志物簇,未来有希望用于胃癌的早期诊断;沈仪[51]通过生物信息学技术分析microRNA-106在胃癌中的诊断作用及其功能,证明miR-106可能作为诊断胃癌的生物标志物,同时提出miR-106相关组合生物标志物可能应用于未来的临床研究;吴茜[52]等人通过生物信息学分析的方法分析胃癌及癌旁正常组织差异表达的基因,通过基因信号通路网络分析发现的关键节点基因为UGT2B15、ITGA2、ITGB1、CYP3A4,而共表达网络分析推测的关键节点基因为SH3GL2、CKMT2、CHIA、ATP4A,从而得出UGT2B15、ITGA2、ITGB1、SH3GL2等基因可能是潜在的胃癌生物标志物和治疗靶标的结论。在膀胱癌中,姚志强[53]基于生物信息学先发现ANLN、CCNB1、CDC20、CTSV、OIP5、IGF1和PLK1与膀胱癌患者的预后显著相关,推测其可作为膀胱癌早期诊断的标志物和治疗的分子靶点,并可改善预后。随后基于此研究从TCGA数据库中获得408例膀胱癌样本和19例癌旁组织样本,鉴定出CTSV作为膀胱癌诊断和预后的标志物;黄坤平[54]利用类似的生物信息学技术研究CDC20在膀胱癌中的生物学和临床意义,研究表明CDC20在膀胱癌组织中高表达,可作为一个潜在的生物标志物用于膀胱癌的诊断和预后,与此同时有望开发靶向CDC20药物对治疗膀胱癌。不仅如此,生物信息学几乎应用于大部分分常见的肿瘤诊断研究中。赵丹等人[55]发现 hsa-miR-147b、hsa-miR-142-3p、hsalet-7g-3p、hsa-miR-139-3p等可作为肺腺癌诊断miRNA的生物学标志物;孔令超等人[56]经生物信息学分析证明血清miR-483在肝癌早期诊断中有一定价值;沈从乐等人[57]也于今年发表文章指出管家基因GAPDH是一个潜在的肝癌诊断指标和预后影响因素;高倩[58]基于TCGA数据库筛选和验证前列腺癌诊断和预后标志物,首次发现了在前列腺癌中高表达的基因GAL,并提出GAL和PENK是前列腺癌的有效诊断指标;田丽贞等人[59]表明外周血MMP1和SCC联合检测能显著提高食管癌的灵敏度与特异性,有利于食管癌的筛查诊断;代芳芳[60]KLF4和ESR1的表达对宫颈癌的诊断和预后有一定的临床意义;阿说阿牛[61]的分析结果显示AURKA、NCAPG、CDC20、CENPF和UBE2C具有较高的诊断价值;黄河英[62]基于生物信息学研究发现SELL是卵巢癌潜在的诊断和预后相关生物标志物。

经过以上综述已经很明显的说明,生物信息学有助于全面深入研究肿瘤的发生机制,筛选可能的核心靶点,为临床诊断及疾病治疗提供参考。

四、总结与展望

随着人类基因组计划(Human Genome Project,HGP)的是成功实施,大规模的基因组测序及基因识别工作已经取得一阶段的成果;今后基因组研究的方向主要转向基因的功能学,进入后基因组时代[63]。我们从基因水平来分析癌症,可以更深入地了解肿瘤的分子发病机制;从基因调控的角度认识肿瘤的发生发展,推动开发新的肿瘤诊断标志物,为临床工作提供使用价值,从而根本上为患者服务,改善肿瘤患者的预后情况。基因来自大量的生物学数据,仅仅依靠传统的实验观察手段并不能挖掘其中隐匿且未被认识的大量生物学知识。不仅如此,在科学技术飞速发展的今天,单一的组学已不能满足当前科学研究的需要。尤其是,近年来随着下一代测序技术的高速发展,多组学被认为是推进精准医学的关键[64]。因此必须借助生物信息技术进行高效的数据处理。生物信息学在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用[3]。随着HGP的快速发展,诞生了许多尖端的生物技术,如基因芯片[65]。尤其在疾病诊断领域,生物信息学结合基因芯片所产生的基因表达图谱,在疾病诊断领域做出了重要的贡献。借助基因芯片同时测得的成千上万的基因表达谱,结合各种的生物信息学方法进行深层次的数据挖掘,能快捷准确地分辨出不同类甚至不同型地癌症,无疑,这对于肿瘤的早期发现和早期治疗都有极为重要的意义和实用价值。但也正是由于基因芯片所产生的数据本质是对一个复杂系统的描述——生命,所以对数据进行有效的分析给生物信息学家们提出了巨大的挑战[69]。对于任何的细胞,它们的基因组虽然相同,但基因表达总会随着不同的组织和发育阶段而变化,因此基因芯片数据产生的基因表达数据是动态的,因此这些数据必须精确匹配,否则这些数据会因为缺少“上下文”的对应联系而失去意义。

尽管存在挑战,但生物信息学方法已经为肿瘤学研究做出了重大贡献。随着生物学大数据的出现,在肿瘤学研究中灵活运用现有的各种数据库,不仅可以使研究人员充分利用现有成果进行研究,而且可以降低研究成本,提高研究效率,加深我们对肿瘤的认识。同时,利用生物信息学分析肿瘤,加上精准医疗项目的发展和技术的快速进步,最终将改变癌症的诊断和治疗方式。

参考文献

Mohme M, Riethdorf S, Pantel K. Circulating and disseminated tumour cells-mechanisms of immune surveillance and escape. Nat Rev Clin Oncol. 2017 Mar; 14(3): 155-167.

Kravitz SN, Ferris E, Love MI, Thomas A, Quinlan AR, Gregg C. Random allelic expression in the adult human body. Cell Rep. 2023 Jan 31; 42(1): 111945.

Jäger N. Bioinformatics workflows for clinical applications in precision oncology. Semin Cancer Biol. 2022 Sep; 84: 103-112.

Paiva VA, Gomes IS, Monteiro CR, Mendonça MV, Martins PM, Santana CA, Gonçalves-Almeida V, Izidoro SC, Melo-Minardi RC, Silveira SA. Protein structural bioinformatics: An overview. Comput Biol Med. 2022 Aug; 147: 105695.

Rothberg J, Merriman B, Higgs G. Bioinformatics. Introduction. Yale J Biol Med. 2012 Sep; 85(3): 305-8.

Xu Q, Dai H, Zhao T, Wei D. Introduction to structural bioinformatics. Adv Exp Med Biol. 2015; 827:1-7.

Li Y, Huang C, Ding L, Li Z, Pan Y, Gao X. Deep learning in bioinformatics: Introduction, application, and perspective in the big data era. Methods. 2019 Aug 15; 166:4-21.

Shams R, Saberi S, Zali M, Sadeghi A, Ghafouri-Fard S, Aghdaei HA. Identification of potential microRNA panels for pancreatic cancer diagnosis using microarray datasets and bioinformatics methods. Sci Rep. 2020 May 5; 10(1): 7559.

Alam MS, Sultana A, Reza MS, Amanullah M, Kabir SR, Mollah MNH. Integrated bioinformatics and statistical approaches to explore molecular biomarkers for breast cancer diagnosis, prognosis and therapies. PLoS One. 2022 May 26; 17(5): e0268967.

Wang S, Xing N, Meng X, Xiang L, Zhang Y. Comprehensive bioinformatics analysis to identify a novel cuproptosis-related prognostic signature and its ceRNA regulatory axis and candidate traditional Chinese medicine active ingredients in lung adenocarcinoma. Front Pharmacol. 2022 Aug 30; 13:971867.

11.Kerkis I, de Brandão Prieto da Silva AR, Pompeia C, Tytgat J, de Sá Junior PL. Toxin bioportides: exploring toxin biological activity and multifunctionality. Cell Mol Life Sci. 2017 Feb;74(4):647-661.

Wang Z, Jensen MA, Zenklusen JC. A Practical Guide to The Cancer Genome Atlas (TCGA). Methods Mol Biol. 2016; 1418:111-41.

Patra BG, Maroufy V, Soltanalizadeh B, Deng N, Zheng WJ, Roberts K, Wu H. A content-based literature recommendation system for datasets to improve data reusability-A case study on Gene expression Omnibus (GEO) datasets. J Biomed Inform. 2020 Apr; 104: 103399.

Dennis G Jr, Sherman BT, Hosack DA, Yang J, Gao W, Lane HC, Lempicki RA. DAVID: Database for Annotation, Visualization, and Integrated Discovery. Genome Biol. 2003; 4(5): P3. Epub 2003 Apr 3.

Szklarczyk D, Kirsch R, Koutrouli M, Nastou K, Mehryary F, Hachilif R, Gable AL, Fang T, Doncheva NT, Pyysalo S, Bork P, Jensen LJ, von Mering C. The STRING database in 2023: protein-protein association networks and functional enrichment analyses for any sequenced genome of interest. Nucleic Acids Res. 2023 Jan 6; 51(D1): D638-D646.

Gene ontology Consortium. The Gene ontology (GO) project in 2006. Nucleic Acids Res. 2006 Jan 1;34(Database issue):D322-6.

Wixon J, Kell D. The Kyoto encyclopedia of genes and genomes--KEGG. Yeast. 2000 Apr; 17(1):48-55.

Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017 Jul 3; 45(W1): W98-W102.

Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 2008 Dec 29; 9: 559.

Morgan E, Arnold M, Gini A, Lorenzoni V, Cabasag CJ, Laversanne M, Vignat J, Ferlay J, Murphy N, Bray F. Global burden of colorectal cancer in 2020 and 2040: incidence and mortality estimates from GLOBOCAN. Gut. 2023 Feb; 72(2): 338-344.

Ciardiello F, Ciardiello D, Martini G, Napolitano S, Tabernero J, Cervantes A. Clinical management of metastatic colorectal cancer in the era of precision medicine. CA Cancer J Clin. 2022 Jul; 72(4): 372-401.

Strickler JH, Yoshino T, Graham RP, Siena S, Bekaii-Saab T. Diagnosis and Treatment of ERBB2-Positive metastatic Colorectal Cancer: A Review. JAMA Oncol. 2022 May 1; 8(5): 760-769.

Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May; 71(3): 209-249.

Shaukat A, Levin TR. Current and future colorectal cancer screening strategies. Nat Rev Gastroenterol Hepatol. 2022 Aug; 19(8): 521-531. doi: 10.1038/s41575-022-00612-y. Epub 2022 May 3. Erratum in: Nat Rev Gastroenterol Hepatol. 2022 Jul 4.

25.Sarhadi VK, Armengol G. Molecular Biomarkers in Cancer. Biomolecules. 2022 Jul 23;12(8):1021. doi: 10.3390/biom12081021.

Gao Y, Wang J, Zhou Y, Sheng S, Qian SY, Huo X. evaluation of Serum CEA, CA19-9, CA72-4, CA125 and Ferritin as Diagnostic Markers and Factors of Clinical Parameters for Colorectal Cancer. Sci Rep. 2018 Feb 9; 8(1): 2732.

Cao H, Zhu L, Li L, Wang W, Niu X. Serum CA724 has no diagnostic value for gastrointestinal tumors. Clin Exp Med. 2023 Mar 15.

Andrei P, Battuello P, Grasso G, Rovera E, Tesio N, Bardelli A. Integrated approaches for precision oncology in colorectal cancer: The more you know, the better. Semin Cancer Biol. 2022 Sep; 84:199-213.

刘萌, 刘蔚东, 张洁等. GNG4、TIMP1在结肠癌诊断及预后价值的生物信息学分析[J]. 重庆医科大学学报, 2021, 46(01): 15-18.

张雨雁, 陈学军. CXCL2和THBS2在结肠癌诊断、预后及免疫浸润中的生物信息学分析[J]. 实用肿瘤杂志, 2022, 37(02): 154-162.

陈明豪. 生物信息学方法探索结直肠癌circRNA诊断标记物及调控机制[D]. 天津医科大学, 2020.

阮国添. 探索NKG2DL家族基因在结肠腺癌中潜在的临床应用价值[D]. 广西医科大学, 2020.

Liu Z, Tang H, Zhang W, Wang J, Wan L, Li X, Ji Y, Kong N, Zhang Y, Wang J, Fan Z, Guo Q. Coupling of serum CK20 and hyper-methylated CLIP4 as promising biomarker for colorectal cancer diagnosis: from bioinformatics screening to clinical validation. Aging (Albany NY). 2021 Dec 29; 13(24): 26161-26179.

蔡连续. 结直肠癌诊断及预后相关lncRNAs的生物信息学分析[D].南方医科大学, 2019.

王央霞. LINC01106在结直肠癌中的诊断价值及基于生物信息学的机制探索[D]. 郑州大学,2020.

Wood LD, Canto MI, Jaffee EM, Simeone DM. Pancreatic Cancer: Pathogenesis, Screening, Diagnosis, and Treatment. Gastroenterology. 2022 Aug; 163(2): 386-402.e1.

Klein AP. Pancreatic cancer epidemiology: understanding the role of lifestyle and inherited risk factors. Nat Rev Gastroenterol Hepatol. 2021 Jul; 18(7): 493-502.

Li X, Li S, Liu L, Hong J, Zhao T, Gao C. Effect of Perioperative CEA and CA24-2 on Prognosis of Early Resectable Pancreatic Ductal Adenocarcinoma. J Cancer. 2020 Jan 1; 11(1):9-15.

杨佳启, 李昊, 姜楠等. 基于生物信息学分析寻找胰腺癌新的诊断和治疗靶点[J]. 生物信息学, 2022, 20(02): 100-112.

尹航. 胰腺癌肿瘤标志物的筛选及外周血检测ENO1对胰腺癌的诊断价值[D]. 上海交通大学, 2017.

Freitas AJA, Causin RL, Varuzza MB, Calfa S, Hidalgo Filho CMT, Komoto TT, Souza CP, Marques MMC. Liquid Biopsy as a Tool for the Diagnosis, Treatment, and Monitoring of Breast Cancer. Int J Mol Sci. 2022 Sep 1; 23(17): 9952.

Lu TX, Rothenberg ME. MicroRNA. J Allergy Clin Immunol. 2018 Apr;141(4):1202-1207. doi: 10.1016/j.jaci.2017.08.034. Epub 2017 Oct 23.

Lee YS, Dutta A. MicroRNAs in cancer. Annu Rev Pathol. 2009; 4: 199-227.

He B, Zhao Z, Cai Q, Zhang Y, Zhang P, Shi S, Xie H, Peng X, Yin W, Tao Y, Wang X. miRNA-based biomarkers, therapies, and resistance in Cancer. Int J Biol Sci. 2020 Jul 19; 16(14): 2628-2647.

Sengupta D, Deb M, Kar S, Pradhan N, Parbin S, Kirtana R, Singh SP, Suma SG, Niharika, Roy A, Manna S, Saha P, Chakraborty P, Dash S, Kausar C, Patra SK. Dissecting miRNA facilitated physiology and function in human breast cancer for therapeutic intervention. Semin Cancer Biol. 2021 Jul; 72:46-64.

Liu J, Wang P, Zhang P, Zhang X, Du H, Liu Q, Huang B, Qian C, Zhang S, Zhu W, Yang X, Xiao Y, Liu Z, Luo D. An integrative bioinformatics analysis identified miR-375 as a candidate key regulator of malignant breast cancer. J Appl Genet. 2019 Nov; 60(3-4): 335-346.

尹阳, 孙巨军, 李越等. 基于TCGA数据库筛选微小RNA (miRNA) 用于原发性乳腺癌早期诊断的生物信息学分析[J]. 现代检验医学杂志, 2021, 36(05): 33-37.

陈柱, 宋晓薇, 曹稳珑等. KIF4A在乳腺癌组织中的表达及其临床意义[J]. 广西医科大学学报, 2019, 36(11): 1733-1737.

张祎. 利用GEO数据库挖掘CKS2作为乳腺癌早期诊断的关键基因的意义[D]. 锦州医科大学, 2021.

王宝玉. 基于生物信息学的胃癌诊断标志物簇筛选及HIF1A调控功能研究[D]. 吉林大学, 2017.

沈仪. microRNA-106在胃癌中的诊断作用及其功能的生物信息学分析[D]. 苏州大学, 2018.

吴茜, 宋兴勃, 钟慧钰等. 胃癌关键基因和通路的生物信息学和功能分析[J]. 肿瘤预防与治疗, 2020, 33(02): 131-139.

姚志强. 基于生物信息学鉴定CTSV作为膀胱癌诊断和预后的标志物及预后nomogram的构建[D]. 兰州大学, 2021.

黄坤平. CDC20在膀胱癌中的生物学和临床意义研究[D]. 桂林医学院, 2022.

赵丹, 牟海军, 石寒冰等. 基于TCGA数据库应用生物信息学方法分析和挖掘肺腺癌预后和诊断miRNA研究[J]. 当代医学, 2022, 28(04): 33-36.

孔令超, 贾素兰, 张维等. 原发性早期肝癌诊断血清标志物筛选及临床价值比较[J]. 标记免疫分析与临床, 2020, 27(11): 1899-1903.

沈从乐, 李韦杰, 马建和等. 管家基因GAPDH与肝癌患者诊断及预后的生物信息学分析[J]. 标记免疫分析与临床, 2023, 30(01): 112-119.

高倩. 基于TCGA数据库前列腺癌诊断和预后标志物的筛选和验证[D]. 桂林医学院, 2022.

田丽贞, 韩润焜, 田丽如. 食管癌血清标志物的生物信息学筛选及其临床诊断价值验证[J]. 转化医学杂志, 2020, 9(06): 351-355.

利用整合生物信息学分析鉴定宫颈癌诊断和预后相关的分子标志物[D]. 湖北医药学院, 2020.

阿说阿牛, 孙丽, 曲木金作等. 基于生物信息学的子宫内膜癌诊断标志物的筛选及免疫细胞浸润分析[J]. 中国免疫学杂志, 2020, 36(22): 2708-2715.

黄河英. 基于生物信息学研究SELL在卵巢癌中的诊断和预后价值[D]. 内蒙古民族大学, 2022.

Gibbs RA. The Human Genome Project changed everything. Nat Rev Genet. 2020 Oct; 21(10): 575-576.

Akhoundova D, Rubin MA. Clinical application of advanced multi-omics tumor profiling: Shaping precision oncology of the future. Cancer Cell. 2022 Sep 12; 40(9): 920-938.

Wang WP, Ni KY, Zhou GH. [Approaches for SNP genotyping]. Yi Chuan. 2006 Jan; 28(1): 117-26. Chinese.

Xu J, Liao K, Fu Z, Xiong Z. Screening differentially expressed genes of pancreatic cancer between Mongolian and Han people using bioinformatics technology. BMC Cancer. 2020 Apr 9; 20(1): 298.

Lee SH, Park NR, Kim JE. Bioinformatics of Differentially Expressed Genes in Phorbol 12-Myristate 13-Acetate-Induced Megakaryocytic Differentiation of K562 Cells by Microarray Analysis. Int J Mol Sci. 2022 Apr 11; 23(8): 4221.

Xie ZC, Dang YW, Wei DM, Chen P, Tang RX, Huang Q, Liu JH, Luo DZ. Clinical significance and prospective molecular mechanism of MALAT1 in pancreatic cancer exploration: a comprehensive study based on the GeneChip, GEO, Oncomine, and TCGA databases. onco Targets Ther. 2017 Aug 10; 10: 3991-4005.

Zhu T. Global analysis of gene expression using GeneChip microarrays. Curr Opin Plant Biol. 2003 Oct; 6(5): 418-25.