程歆琦：生物信息学分析方法及在肿瘤诊断中的临床应用

作者：高雨濛程歆琦中国医学科学院北京协和医学院（高雨濛）；中国医学科学院北京协和医院检验科（程歆琦） 5084 2023-07-07

文章刊载于《临床实验室》杂志2023年6月刊“恶性肿瘤实验室检测”专题-「实验室诊断技术导航」版块页码p106-p116

摘要：肿瘤由多因素参与，严重危害人类身体健康并降低了生活质量。大多恶性肿瘤不易监测，发病隐匿，被发现时大多已处于中晚期，因此严重降低了患者的存活率。因此，寻找更多的特异且灵敏的肿瘤诊断标志物十分重要。随着高通量检测和分析技术的快速发展，生物信息学技术可对海量的肿瘤数据进行收集和整理，综合运用生物信息学数据库及相应方法有助于肿瘤诊断标志物的发现，为众多恶性肿瘤，如结直肠癌、胰腺癌、乳腺癌等癌症诊断提供了新方向,奠定理论基础。在这篇综述中，我们介绍了生物信息学的常用数据库及分析方法、临床应用以及总结了这种新的模式在肿瘤诊断应用的成果，总结并讨论分析其未来展望。

肿瘤是一种复杂的疾病，也是多因素参与的疾病。正常细胞转化为肿瘤细胞的过程涉及逃避免疫攻击、恢复能量代谢、诱导血管生成等。这些阶段代表了一个复杂的信号调控网络，因此，肿瘤研究不仅要考虑整体，还要考虑跨时间和空间。在肿瘤研究过程中，获得了大量的数据，这增加了肿瘤研究的难度。在研究肿瘤的过程中，科学研究关注的重点是肿瘤相关基因的功能及肿瘤细胞信号通路。基因是人体最主要的遗传物质，因此，只有越来越多地了解与不同肿瘤相关的基因，并筛选出其中的关键基因，才能更好的预测癌症的发生，监控癌症的病变进展，从而才能采用效果更好的个体化治疗方案，最后达到降低患者死亡率，提高患者生存率的目的。近年来，高通量检测和分析技术的发展导致了癌症生物学数据的指数级增长，使用数据挖掘方法从大量的数据中确定关键基因和突变，可能有助于阐明癌症发展的机制。生物信息学（Bioinformatic）是以计算机为工具，利用信息技术收集、组织和分析肿瘤学研究中的数据。它的出现从不同的应用角度收集和整理了目前大量的肿瘤研究结果，并根据不同的研究目的建立了多个具有不同功能的数据库，利用这些数据库来研究肿瘤，丰富了我们的研究手段。科研人员可以将其研究的数据共享到开放的数据库中，例如癌症基因图谱计划（The Cancer Genome Atlas，TCGA）和基因表达综合数据库（Gene expression omnibus，GEO）数据库。数据库中收集了大量实验室中开展的相似的实验所得的数据，因此形成一个以海量生物信息数据为基础的一种全新的生物学研究模式，并且在疾病诊断领域也日趋被研究者使用。这种研究模式下，我们理论先行，接着再进行实验验证。这种新的研究模式业已在结直肠癌、胰腺癌、乳腺癌、胃癌、膀胱癌、肺癌、卵巢癌等疾病的相关诊断预测研究中取得了成果，在本文中，我们介绍了生物信息学的常用数据库及分析方法、临床应用以及总结了这种新的模式在肿瘤诊断应用的成果，并加以总结与讨论分析其未来展望。

01 生物信息学概述

生物信息学是一门交叉学科，探索、开发和使用计算工具和计算方法来处理生物学、医学、计算机科学和其他领域的数据。从广义上讲，生物信息学是将信息科学方法和技术应用于研究生物过程中存储和传输的信息，以及研究和分析生物体的细胞、组织和器官的生理、病理和药理过程中的各种生物信息。从广义上讲，生物信息学是一门生命科学信息科学，它是将信息科学理论、方法和技术应用于生物分子数据的管理、分析和使用，或者说是一门利用计算技术研究生物系统规律的学科。生物信息学研究将集中在数学和信息科学的新技术和方法的开发，包括三个方面：生物分子数据的收集和管理，数据分析和挖掘，以及分析工具和手段的开发，如生物分子序列排列工具、基因识别工具、预测生物分子结构的工具和分析基因表达数据的工具。生物信息学技术是后基因时代的核心技术之一，为整合和分析癌症大数据提供了极大地便利。科研人员可以将其研究的数据共享，因此数据库中收集了大量实验数据，并且大家可以在这些数据平台免费下载和收集，方便后续分析其中蕴含的生物学意义。以海量生物信息数据为基础的一种全新的生物学研究模式在疾病诊断领域也被研究者广泛使用。这种研究模式下，我们先用数据信息进行理论分析，预测可能的研究方向，然后应用传统的生物试验方法进一步临床验证。科研人员一般将研究分为两部分，第一部分先应用生物信息学方法，在大数据库中找到已知的肿瘤相关差异表达基因（DEGs），并且这些基因是根据不同实验条件和不同实验样本这种筛选而来的。接着这些DEGs再根据聚类分析、功能富集分析（采用采用超几何检验（hypergeometric test）等参数或非参数型方法来计算各个通路的富集显著性（P-Value）并予以校正），将功能相似或相关的基因归类，筛选出与该基因组功能显著相关的类别。常用的生物信息学数据库有很多，GO（Gene ontology）、KEGG(Kyoto Encyclopedia of Genes and Genomes)等数据库是实际工作中广泛使用的；DAVID（The Database for Annotation，Visualization and Integrated Discovery）、WGCNA（Weighted correlation network analysis）等软件是常用的分析软件。第二部分研究者需要在蛋白层面利用传统技术对筛选出来的肿瘤相关基因进行进一步蛋白表达验证。因为蛋白质才是生命活动的具体体现者和执行者，因此如若想要达到寻找用于诊断特别是早期诊断的灵敏且特异的标志物的目的，从而深入研究肿瘤的发病机制，则需要从蛋白质层面出发。进行蛋白验证可以使用的常规技术包括免疫组化、免疫印迹法、酶联免疫吸附法等方法。

02 常见生物信息学数据及分析方法

为了识别具有统计学意义的差异表达基因和共表达基因，我们需要使用适当的数据库和分析工具，并进行功能注释。通过生物信息学分析，我们将路径基因组分析方法与网络分析方法相结合，在路径水平上发现关键基因。通过这种方式，也可以确定基因和路径的作用。本节总结了人类肿瘤研究中常用的数据库和生物信息学分析方法。

1.癌症基因图谱计划（The Cancer Genome Atlas，TCGA）：TCGA数据库（https://cancergenome.nih.gov/）是由美国国立卫生院创建的癌症基因组项目，旨在通过大规模的基因组测序和综合多维分析，发现人类常见肿瘤中基因组的改变，从而提高对于癌症的预防、诊断和治疗能力。TCGA数据包括基因组、转录组、表观遗传、蛋白组等各个组学，提供了一个大型的癌症研究参考数据库。TCGA数据库目前收录了33种癌症类型，涵盖的数据类型广泛，包括：Clinical、mRNA、microRNA、CopyNumber、Mutation、Protein、Methylation等。

2. 基因表达综合数据库（GENE expression OMNIBUS，GEO）：GEO 数据库（https://www.ncbi.nlm.nih.gov/geo/）是由美国国立生物技术信息中心（ National Center for Biotechnology Information，NCBI）创建并负责管理和维护的基因表达数据库。它创建于 2000 年，收录了世界各国研究机构提交的高通量基因表达数据，可以存储和分享研究者提交的微阵列、新一代测序以及其他形式的高通量基因组数据。

3. 用于注释、可视化和集成发现的数据库（The Database for Annotation， Visualization and Integrated Discovery，DAVID）：DAVID 数据库[14]（https://david.ncifcrf.gov/）是一个用于注释、可视化和集成发现的数据库。它将生物学数据和分析工具相结合，为大规模的基因或蛋白列表提供系统综合的生物功能注释信息，帮助用户从中提取生物学信息。在生物信息研究过程中，DAVID 数据库主要用于差异基因的功能和通路富集分析。

4.蛋白相互作用网络数据库（Search tool for the retrial of interacting genes/proteins，STRING）：STRING 数据库（https://string-db.org/）是欧洲分子生物实验室 Peer Bork团队开发的用于分析基因间功能关系的数据库。2023 年的最新版本中包含来自 14094 个生物体的 67'592'464 个蛋白质，20'052'394'041 个相互作用。STRING 数据库通常被应用于构建蛋白之间的相互作用网络，挖掘核心的调控基因。

5. 基因本体论（Gene Ontology，GO）：GO 数据库（http://www.geneontology.org）是一个由基因本体联合会所创立的，旨在建立一套适用于各物种，对基因和蛋白质功能进行描述和分类注释的平台。它主要包含三个方面：（1）分子功能：用于描述基因产物在分子生物水平活性作用，如催化活性、结合活性等；（2）细胞组分：用于描述基因产物在发挥作用时所处的细胞定位；（3）生物学过程：用于描述多个分子功能有序组成的，具有多个步骤的过程。GO 数据库的使用能够有效的解决生物学定义混乱的现象，统一各个数据库中对基因产物功能的描述。

6.京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes，KEGG）：KEGG 数据库（https://www.genome.jp/kegg/）由 Kanehisa 实验室开发，它是一个基于计算机的数据库，以基因组和化学信息为基本要素，结合代表相互作用、反应和相互关系网络的系统信息，以了解生物系统的高级功能。它有几个子数据库，包含基因组、生化反应、生物化学、疾病和药物，以及最常用的PATHWAY途径。KEGG PATHWAY 数据库生物代谢途径分为七类：新陈代谢、遗传信息、环境信息、细胞过程、机体系统、人类疾病和药物开发。

7.基于基因表达水平值的交互式分析平台（Gene expression Profiling Interactive Analysis，GEPIA）：GEPIA（http://gepia2.cancer-pku.cn/）是在线生信分析工具，零代码操作。GEPIA中整理了每一个可检索的基因在不同肿瘤样本中的表达值，可以计算某个基因在某种肿瘤中的表达水平，还可以分析基因与肿瘤预后的关系、基因间的共表达等。

8.加权基因共表达网络分析（Weighted correlation network analysis，WGCNA）：WGCNA [19]是一种系统生物学方法来描述不同样本之间的基因关联模式，它可以用来识别高度协同的基因组和候选生物标志物或治疗目标，基于基因组的内生性和基因组与表型之间的关系，它可以用来分析与临床特征的显著关联，识别与肿瘤密切相关的基因模块。

03 生物信息学在肿瘤诊断中的应用

1.结直肠癌：结直肠癌(Colorectal Cancer)是世界第三大恶性肿瘤，结直肠癌发病机制复杂，确切发病原因尚未完全明晰，除了人口老龄化和高收入国家普遍存在的饮食习惯外，缺乏运动、肥胖和吸烟等风险因素也会增加结直肠癌的风险。结直肠癌发病隐匿，患者的诊断时期与预后存在紧密联系，多数患者确诊时已达中晚期，预后较差。近年来，结直肠癌的发病率和死亡率急剧增加，据2022年公布的癌症数据显示：结直肠癌的发病率排名第三，死亡率排名第二。目前结直肠癌筛查的重要方法为内窥镜，但此类检查过程中患者相对痛苦且检查费用较高，不适用于人群筛查。近年来肿瘤标志物检查凭借安全、便捷及无创等优点，已被用于肿瘤诊断、肿瘤分期指导及预后评估中。CEA、CA-199是结直肠癌最早使用的血清标志物，但因为其灵敏度和特异度低，在消化道肿瘤诊断中均具有较高的阳性率，单独用于结直肠癌的诊断效果一般。由于缺乏敏感性且特异性的早期诊断标志物，许多结直肠癌患者被诊断时已为晚期，预后很差。因此，如今，寻找具有高敏感性和特异性的早期诊断标志物是必须的。目前已经有大量研究运用生物信息学技术的研究模式寻找到结直肠癌的潜在诊断标志物。

在研究者刘萌等人的研究中，他们通过生物信息学的方法从GEO数据库下载结肠癌相关基因芯片GSE37364（27例结肠癌；38例正常对照）、GSE41328（10例结肠癌；10例正常对照）的mRNA表达谱数据集，通过GEO 2R软件在线筛选差异表达基因，通过STRING在线数据库构建蛋白互作网络分析后将结果导入Cytoscape软件并鉴定出核心基因18个(THY1、BMP4、CD44、CXCL8、GNG4、COL1A2、IL1B、SERPINE1、IGF1、SPP1、COL1A1、HGF、POSTN、TIMP1、CXCL12、GCG、IL6、PTGS2)。除此之外，研究中通过GEPIA在线工具进行表达水平验证并发现仅有GNG4、TIMP1在正常组织与结肠癌组织中表达差异具有统计学差异，提示GNG4和TIMP1可能是结肠癌诊断及预后良好的生物标志物，可为结肠癌的研究提供方向。不仅如此，在这种生物信息学的研究模式的运用下，张雨雁等人发现CXCL2和THBS2参与多种分子调控通路，可作为结肠癌潜在的生物标志物，作为结肠癌诊断及预后相关基因；陈明豪研究证明hsa_circ_0006332、hsa_circ_0065173、hsa_circ_0000518、hsa_circ_0006174、hsa_circ_0087862、hsa_circ_0005927可作为结直肠癌潜在的circRNA诊断标记物，且hsa_circ_0087862调控作用最强，通过hsa_circ_0087862/hsa-miR-892b/CCND1调控轴参与行使蛋白结合功能，参与生物、细胞过程正调控等功能促进结直肠癌的发生发展；阮国添通过生物信息学方法验证了ULBP1，ULBP2,ULBP3,RAET1G和RAET1L在COAD上有显著性诊断学价值，且其中ULBP2具有较高的诊断价值；Liu等人验证与以往报道的血清生物标志物相比，CK20/超甲基化的CLIP4有可能成为一种新的、有效的、精确的结直肠癌诊断生物标志物；蔡连续和王央霞于先后分别研究长链非编码RNA并分别得出lncRNA有作为诊断标志物的潜力，且其诊断模型可以预测患者的预后和LINC01106在结直肠癌组织和血浆中表达均上调，且与结直肠癌的恶性表型密切相关，可作为诊断结直肠癌的潜在分子标志物的结论。

2.胰腺癌：胰腺癌（Pancreatic Cancer）已成为癌症的主要原因之一，对人类健康构成严重威胁。近年来胰腺癌的致病率及死亡率逐年上升，治愈率极低，术后死亡率较高，5年生存率低。近年来，胰腺癌的诊断和治疗一直在稳步推进，但由于其早期症状隐蔽，80%以上的患者在诊断时已经是晚期，错过了早期手术治疗的最佳时机。随着下一代测序技术的发展，生物信息学、多组学和机器学习方法已经成为精准医学研究的重要发展。因此，探索、鉴定及验证新的理想生物标志物将会对胰腺癌的诊治具有重要意义。胰腺癌早期表现并无特异性，发生后可伴有腹痛、黄疸、腹部包块等，使得早期诊断性低但恶性程度高。临床虽已证实存在的胰腺癌肿瘤标志物检测的诊断价值，如CEA，CA242等，然而，其敏感性和特异性一般，仍可能发生误诊，延误患者治疗，导致预后不良。近年来，胰腺癌的诊断和治疗已稳步提高，但由于早期症状的隐蔽性，大多数患者在初次诊断时已出现远处转移。因此，研究、鉴定和验证新的理想生物标志物对诊断和治疗胰腺癌至关重要。

在一项由杨佳启等人报道的研究中，生物信息学技术得以运用来寻找胰腺癌更加灵敏准确的诊断靶点。他们是从GEO数据库获得的胰腺癌mRNA的微阵列数据，选择GSE62165（正常样本13例和胰腺癌样本118例）， GSE55643（正常样本8例和胰腺癌样本45例）和GSE62452 （正常样本61例和胰腺癌样本69例）3个数据集并使用在线分析工具GEO2R筛选出108个关键差异表达基因。在进一步的研究中，他们使用STRING软件构建了DEGs的蛋白互作网络PPI，并且在Cytoscape中使用MCODE插件对相互作用的蛋白进一步筛选并对结果进行优化；然后经过GO功能注释和KEGG通路富集分析深入研究差异基因的潜在功能，最后在代谢通路中得到六个关键候选基因(LAMA3、LAMB3、LAMC2、ITGA2、ITGA3和ITGB4)，且它们在胰腺癌组织的表达量均升高。接着经过GEPIA数据库分析、Kaplan-Meier生存分析以及一些生物信息学数据库的综合分析，他们发现高表达的LAMA3可能是胰腺癌发生和发展的关键的基因，同时在预测到的miRNA-mRNA调控轴中，has-miR-20b-5p-LAMA3轴在胰腺癌的发生和进展中具有较高的潜力，进一步研究发现，FGD5-AS1-has-miR-20b-5p-LAMA3调控网络可作为胰腺癌临床诊断和治疗的潜在靶点和生物标志物。类似的，许多研究者基于生物信息学这一研究模式发现了许多潜在的灵敏度和特异度高的胰腺癌诊断标志物。在尹航的研究中，综合运用生物信息学技术发现7个编码蛋白质与胰腺癌密切相关，分别是RAC1、AKT1、TP53、CCND1、SRC、CDKN1A和ENO1。应用免疫组织化学方法检测，ENO1在人胰腺癌组织中的表达阳性率要显著高于胰腺癌癌旁组织，并且进一步研究发现ENO1作为胰腺癌肿瘤标志物诊断胰腺癌的敏感性为75.8%，特异性为88.2%，如若联合CA19-9可提高诊断胰腺癌的敏感到94.5%。黎天东在这一研究模式下确定了TSPAN1，TMPRSS4，SDR16C5和CTSE四个关键基因，且细胞水平的RNA-Seq数据也显示它们在胰腺癌细胞中均高表达，在进一步的研究中发现TSPAN1在胰腺癌临床诊疗中的潜力。值得一提的是，他基于机器学习构建胰腺癌的八个诊断模型：支持向量机（support vector machine，SVM）；随机森林（random forest，RF）；朴素贝叶斯（Naive Bayes，NB）；神经网络（Neural Network，NN）；线性判别分析（linear discriminant analysis，LDA）；混合判别分析（Mixture Discriminant Analysis，FDA）；逻辑回归（Logistic regression，LR），它们均显示出较高的诊断能力，准确率高达90%，随机森林、神经网络、灵活判别分析模型在内部验证中的准确率高达100%。为胰腺癌的诊断提供了新方向，奠定理论基础。

3.乳腺癌：乳腺癌（Breast Cancer）位居全球女性因癌死因首位，2020年约有230万新发病例，占所有癌症病例的11.7%，是全球癌症发病率之首；死亡人数为68.5万人，是全球癌症死亡五大原因之一。乳腺癌已成为一个重大的公共卫生问题，及早地发现和诊断对乳腺癌的治疗和预后至关重要。组织病理学检查是乳腺癌诊断的金标准，然而病理学家对组织图像进行人工分析是的过程耗时且繁琐，且在某种程度上具有较大的主观性，可能出现诊断失误。在高通量技术快速发展的时代，基于数据库处理的生物信息学技术为找到更早期、更精确的乳腺癌诊断标志物提供了便利。

微小RNA(miRNA)属于一种单链小 RNA 分子，同时也是一类存在于人体基因组内部能够控制蛋白表达的单链核糖核酸分子，可以被独立的基因编码或者内切酶作用于发夹结构前体（如内含子等）合成，全长18～25个核苷酸，参与转录后基因表达与调控，诱导细胞凋亡与增殖。大量实验数据结果还发现miRNA可以深入参与癌症的发生、发展和转移，并起到促进癌症的发生、发展和转移或着抑制癌症的发生、发展和转移的功能。因此，近年来有大量研究致力于应用生物信息学手段发现乳腺癌组织中高表达或低表达的miRNA，筛选适宜的微小RNA用于乳腺癌的检测，并对目标miRNA的靶点进行GO功能注释分析和KEGG富集分析，为进一步探索开发乳腺癌分子靶点奠定分子理论基础。Liu等人的一项研究中提出miR-375可能是一种潜在的关键调控因子，为恶性乳腺癌的诊断和治疗发展提供了一个有前景的方向。他们运用生物信息学的方法从GEO数据库下载乳腺癌相关基因芯片GSE19536（61个组织样本）、GSE40056（8个乳腺癌细胞系）以及GSE40057（8个乳腺癌细胞系）的mRNA表达谱数据集，通过GEO 2R软件在线筛选差异表达基因，并使用GraphPad Prism7和R统计软件进行统计分析发现miR-375在乳腺癌中高表达。接着他们使用生物实验方法进行细胞培养和转染并进行分子生物学分析。最后将分析结果结合生物信息学结果，再进行在线数据库分析，使用GO和KEGG分析miR-375的生物学作用及信号通路以及UALCAN在线数据库对不用亚型的乳腺癌组织中MiR-375靶基因的mRNA表达水平进行评估，分析miR-375的目标靶基因，确定四个潜在的关键基因，包括LDHB、CPNE8、QKI、a和EIF5A2，被确定为miR-375的候选靶基因。该研究为乳腺癌的诊断提供了有希望的发展新方向。后又有研究继续研究微小RNA对乳腺癌的诊断的应用。尹阳等人从肿瘤基因组图谱TCGA中获取原发性乳腺癌组织（1075例）和正常乳腺组织（95例）的miRNA表达数据，通过差异基因miRNA筛选、靶基因预测、高频突变基因筛选等生物信息学方法得到目标miRNA 6个，分别是：hsa-mir-4732,hsamiR-486,hsa-miR-592,hsa-miR-449b,hsa-miR-187和hsa-miR-196a，将这6个miRNA构建ROC曲线(P <0.05)，预测其作为肿瘤标志物的诊断能力，其中 hsa-miR-592 ROC 曲线下 AUC 面积为 0.950 ，hsa-mir-486 为 0.938，说明其作为肿瘤标志物的诊断能力良好。基于这种生物信息学的研究模式，在陈柱等人[48]的研究中，通过TCGA数据库收集乳腺癌患者的RNA序列及其临床信息，采用Kaplan-Meier法进行生存分析并且采用qPCR法检测30例乳腺癌及其癌旁组织中KIF4A的表达探讨驱动蛋白超家族成员4A(KIF4A)在乳腺癌组织中的表达及其与患者临床病理特征的关系，他们发现KIF4A在乳腺癌组织中呈高表达，有助于乳腺癌的早期诊断并与其预后密切相关。张祎利用GEO数据库和GEPIA等生物信息学手段发现乳腺癌组织中的CKS2高表达，挖掘出CKS2作为乳腺癌早期诊断的关键基因。

4.其他癌症：生物信息学快速发展的时代，不仅仅在结直肠癌、胰腺癌和乳腺癌的诊断中取得了较大的进展，在许多癌症中仍有广泛应用。在胃癌中，王宝玉综合生物信息学技术整合特征选择分析，筛选出ATP4A、CNMK2N1、ESRRG、THBS2构建胃癌诊断标志物簇，未来有希望用于胃癌的早期诊断；沈仪通过生物信息学技术分析microRNA-106在胃癌中的诊断作用及其功能，证明miR-106可能作为诊断胃癌的生物标志物，同时提出miR-106相关组合生物标志物可能应用于未来的临床研究；吴茜等人通过生物信息学分析的方法分析胃癌及癌旁正常组织差异表达的基因，通过基因信号通路网络分析发现的关键节点基因为UGT2B15、ITGA2、ITGB1、CYP3A4，而共表达网络分析推测的关键节点基因为SH3GL2、CKMT2、CHIA、ATP4A，从而得出UGT2B15、ITGA2、ITGB1、SH3GL2等基因可能是潜在的胃癌生物标志物和治疗靶标的结论。在膀胱癌中，姚志强基于生物信息学先发现ANLN、CCNB1、CDC20、CTSV、OIP5、IGF1和PLK1与膀胱癌患者的预后显著相关，推测其可作为膀胱癌早期诊断的标志物和治疗的分子靶点，并可改善预后。随后基于此研究从TCGA数据库中获得408例膀胱癌样本和19例癌旁组织样本，鉴定出CTSV作为膀胱癌诊断和预后的标志物；黄坤平利用类似的生物信息学技术研究CDC20在膀胱癌中的生物学和临床意义，研究表明CDC20在膀胱癌组织中高表达，可作为一个潜在的生物标志物用于膀胱癌的诊断和预后，与此同时有望开发靶向CDC20药物对治疗膀胱癌。不仅如此，生物信息学几乎应用于大部分分常见的肿瘤诊断研究中。赵丹等人发现 hsa-miR-147b、hsa-miR-142-3p、hsalet-7g-3p、hsa-miR-139-3p等可作为肺腺癌诊断miRNA的生物学标志物；孔令超等人经生物信息学分析证明血清miR-483在肝癌早期诊断中有一定价值；沈从乐等人也于今年发表文章指出管家基因GAPDH是一个潜在的肝癌诊断指标和预后影响因素；高倩基于TCGA数据库筛选和验证前列腺癌诊断和预后标志物，首次发现了在前列腺癌中高表达的基因GAL，并提出GAL和PENK是前列腺癌的有效诊断指标；田丽贞等人表明外周血MMP1和SCC联合检测能显著提高食管癌的灵敏度与特异性，有利于食管癌的筛查诊断；代芳芳KLF4和ESR1的表达对宫颈癌的诊断和预后有一定的临床意义；阿说阿牛的分析结果显示AURKA、NCAPG、CDC20、CENPF和UBE2C具有较高的诊断价值；黄河英基于生物信息学研究发现SELL是卵巢癌潜在的诊断和预后相关生物标志物。

经过以上综述已经很明显的说明，生物信息学有助于全面深入研究肿瘤的发生机制，筛选可能的核心靶点，为临床诊断及疾病治疗提供参考。

04 总结与展望

随着人类基因组计划（Human Genome Project，HGP）的是成功实施，大规模的基因组测序及基因识别工作已经取得一阶段的成果；今后基因组研究的方向主要转向基因的功能学，进入后基因组时代。我们从基因水平来分析癌症，可以更深入地了解肿瘤的分子发病机制；从基因调控的角度认识肿瘤的发生发展，推动开发新的肿瘤诊断标志物，为临床工作提供使用价值，从而根本上为患者服务，改善肿瘤患者的预后情况。基因来自大量的生物学数据，仅仅依靠传统的实验观察手段并不能挖掘其中隐匿且未被认识的大量生物学知识。不仅如此，在科学技术飞速发展的今天，单一的组学已不能满足当前科学研究的需要。尤其是，近年来随着下一代测序技术的高速发展，多组学被认为是推进精准医学的关键。因此必须借助生物信息技术进行高效的数据处理。生物信息学在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。随着HGP的快速发展，诞生了许多尖端的生物技术，如基因芯片。尤其在疾病诊断领域，生物信息学结合基因芯片所产生的基因表达图谱，在疾病诊断领域做出了重要的贡献。借助基因芯片同时测得的成千上万的基因表达谱，结合各种的生物信息学方法进行深层次的数据挖掘，能快捷准确地分辨出不同类甚至不同型地癌症，无疑，这对于肿瘤的早期发现和早期治疗都有极为重要的意义和实用价值。但也正是由于基因芯片所产生的数据本质是对一个复杂系统的描述——生命，所以对数据进行有效的分析给生物信息学家们提出了巨大的挑战。对于任何的细胞，它们的基因组虽然相同，但基因表达总会随着不同的组织和发育阶段而变化，因此基因芯片数据产生的基因表达数据是动态的,因此这些数据必须精确匹配，否则这些数据会因为缺少“上下文”的对应联系而失去意义。

尽管存在挑战，但生物信息学方法已经为肿瘤学研究做出了重大贡献。随着生物学大数据的出现，在肿瘤学研究中灵活运用现有的各种数据库，不仅可以使研究人员充分利用现有成果进行研究，而且可以降低研究成本，提高研究效率，加深我们对肿瘤的认识。同时，利用生物信息学分析肿瘤，加上精准医疗项目的发展和技术的快速进步，最终将改变癌症的诊断和治疗方式。

【来源：《临床实验室》杂志2023年6月刊】

若非本站原创文章，则文章观点仅代表作者本人，如发现本站有涉嫌侵权/违法违规内容，请发送邮件至ivdchina@ivdchina.com，一经查实，本站立即删除。

点赞 0 反对 0 收藏 0 评论 0

程歆琦：生物信息学分析方法及在肿瘤诊断中的临床应用

《临床实验室》最近内容

下一篇

上一篇