机器学习技术及其在恶性肿瘤诊断中的应用价值

作者:李波 毛远丽
作者单位:解放军总医院第五医学中心检验科 2022-09-21

毛远丽,解放军总医院第五医学中心检验科 主任技师,教授,博士生导师;专业技术三级,享受政府特殊津贴。现任第二届中国老年医学学会检验医学分会会长;第四届国家病原微生物实验室生物安全专家委员会委员;全国医用临床检验实验室和体外诊断系统标准化委员会(TC136)委员;中国合格评定国家认可委员会(CNAS)专业委员会委员。CNAS医学实验室认可主任评审员,CNAS实验室生物安全技术评审员。研究方向为感染性疾病病原实验室快速检测技术与病情评估;以第一完成人获军队科技进步一等奖1项、军队医疗成果二等奖2项、中华预防医学会二等奖1项。近年在国内外刊物上发表论文118篇,主编专著4部。


李波,解放军总医院第五医学中心检验科副主任,医学博士,副主任医师,硕士研究生导师。中国合格评定国家认可委员会(CNAS)技术评审员。兼任中国医疗保健国际交流促进会基层检验技术标准化分会常务委员兼秘书长、中华医学会病毒学分会青年委员、《国际检验医学杂志》审稿专家。长期从事肝癌肿瘤标志物研究、新突发传染病病原快速诊断技术研究。承担首都临床特色应用研究专项、全军医学科技青年培育计划等多项课题,在Mol Biol Evol、BMC Infectious Diseases等国际期刊发表SCI论文12篇,其中以第一作者发表SCI论文6篇,中文核心期刊论文25篇;任副主编出版专著1部,参编5部;获计算机软件著作权2项。获得军队科技进步一等奖、医疗成果二等奖、三等奖各1项。



机器学习(Machine Learning,ML)是一门多领域交叉学科技术,通过算法使得机器从大量数据中学习和发现规律,从而对新的样本或数据进行分析和研究的方法。从1949年的赫布理论诞生,机器学习技术经过数十年的蓬勃发展,在大数据时代的背景下,以深度学习为代表的新技术不断涌现,机器学习技术不断从理论走向了实践和应用。目前,机器学习技术在肿瘤学、病理学和部分罕见病的诊断中发挥着越来越重要的作用。


一、机器学习的类型及算法


机器学习的类型包括监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Learning)和深度学习(Deep Learning),其中监督学习是最常用于疾病诊断的机器学习方法,这得益于我们可以利用金标准获得大量诊断明确的病例和数据,如K近邻(k-Nearest Neighbor,KNN)分类算法、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)算法、决策树(Decision Tree,DT)及随机森林(Random Forest Classification,RFC)算法等。监督学习通过利用大量的已知标签(分类或诊断)的数据来训练模型,从而获得识别新样本、诊断新病例的能力。


无监督学习是不依赖任何样本标签,通过对数据内在特征的挖掘,找到样本间的关系。在临床诊断实践中,我们可以利用无监督学习算法挖掘病因因果学或预后、疗效等因素之间的相关性,如聚类分析(Cluster Analysis)、主成分分析(Principal Component Analysis,PCA)等。无监督学习通常没有明确的目的,因此无需给数据赋予标签,也不用金标准对样本进行定性,仅仅通过数据之间的关联性对样本进行归类,因此也无法进行量化效果的评价。无监督学习方法往往需要配合其他的统计学方法确定分类的临床价值。


深度学习(Deep Learning,DL)是从经典的神经网络技术发展而来的多层神经网络,以矩阵数据作为输入,通过非线性激活方式产生新数据集作为输出。深度学习的出现和发展,推动机器学习领域向着真正的“智能化”方向迈进。DL是机器学习领域中一个新的研究方向,通过学习样本数据的内在规律和表示层次,实现让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的了很大的进展。DL采用的算法和层次复杂,目前常用的算法包括循环神经网络(Recurrent Neural Network,RNN)、自动编码机、卷积神经网络(Convolutional Neural Networks,CNN)等,这些技术广泛应用于自然语言识别、语音识别和部分医疗领域。


二、数据获取及机器学习的实现


进行数据分析的前提是获得大量标准化、准确可用的数据。对大部分研究者来说,通过电子病例系统检索或纳入研究对象、采集数据是最常用的方法。但是通过这样的方式很容易造成数据的缺失,且需要大量的时间和金钱的投入,也很难符合大样本和多中心的要求。目前互联网资源是获取信息的主要来源,肿瘤生物信息学数据库为肿瘤的数据研究提供了有效的资源获取方式。本文介绍几个主要的肿瘤互联网数据库,可作为肿瘤研究数据获取的来源:(1)TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助成立的肿瘤基因数据库

(https://portal.gdc.cancer.gov/)。该数据库包含3万多份各类恶性肿瘤患者病例资料,所提供的数据包括患者的基本病例信息、预后情况、病理图谱、突变位点、表观遗传、基因表达谱及miRNA等;(2)GEO数据库全称GENE expression OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(http://www.ncbi.nlm.nih.gov/geo)。GEO除了二代测序数据外,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。通过上面的数据库,研究者可以免费获取肿瘤患者的各类数据,并作为机器学习的数据来源进行后续的分析、建模、指标筛选和评价工作。


获得可用于分析的数据后,即可采用数据分析软件进行后续的分析和建模。目前机器学习建模的主要工具是编程性的机器学习库,如R、Python以及深度学习库caffe、tensorflow等。本文以R语言平台为例描述机器学习的基本步骤及方法。进行机器学习主要包含数据分割、预处理、特征选择、重抽样进行模型调参、变量重要性估计、建立模型、验证及预测等步骤:(1)数据处理是进行建模和分析的第一步,数据文件在R语言中通过缺失值处理、数据归一化后形成完整标准的数据表;(2)通过特征选择和删除强相关自变量,得到最优效率的自变量组合,这一步对后续建模的效率至关重要;(3)数据分割的目的是按照比例将所有样本分为训练组和验证组;(4)数据处理完成后,可以选择相应的机器学习算法建模,R语言中提供了众多的算法包,如Caret、RandomForest、Kernlab等。模型建立完成后,程序将自动进行训练和验证,并计算准确度、敏感度、特异度等数据对模型进行评价。建模步骤如图1所示。


图1. 采用Caret包建模基本步骤及方法


三、机器学习算法在恶性肿瘤诊断中的应用


近年来,国内外采用机器学习算法在疾病诊断、预测中应用非常广泛。根据近年来对机器学习应用综述的统计[1-2],目前研究最多的疾病包括Parkinson病、乳腺癌、心脏病和糖尿病。另外,也有部分研究是关于肾脏病、肝纤维化、肺癌等慢性病和恶性肿瘤的诊断,而监督学习方法是最主流和常规使用的方法。恶性肿瘤诊断的金标准及分级分期方法明确,病程长,有利于大样本数据的收集和分析,而对于急性和病程短的疾病诊断则很少采用机器学习进行分析。从技术算法上分析,SVM、ANN、Logistic回归分析是使用最多的算法,另外,K-均值聚类、DT等算法也比较普遍。近年来发展最快的深度学习算法则较少见到文献发表,深度学习的主要应用领域仍集中在图像处理和语音识别等领域,而且使用门槛高,在医学诊断领域仍需要与影像学、病理学等图像分析领域相结合。而对于单纯的数据分析诊断,线性问题或简单的非线性问题采用简单的分类算法即可达到很好的分类效果。


恶性肿瘤是严重危害身体健康的疾病,已位列我国各种疾病死亡率的第一位,占死亡总原因的20%以上,肿瘤的早期诊断和疗效评估对患者的生存预后至关重要。采用机器学习算法结合各类血液学诊断标志物,可以显著提高肿瘤诊断的准确性,其主要应用包括以下方面:(1)早期诊断及良恶性结节的鉴别:部分实体肿瘤由于影像学诊断分辨率低或影像学特征不明显,导致疾病早期漏诊或误诊。而单一肿瘤标志物的敏感度高但缺乏特异性,采用机器学习算法结合多个肿瘤标志物或基因突变位点建立诊断模型,可以实现肿瘤的早期诊断,精准鉴别良恶性肿瘤;(2)恶性肿瘤的病理分型及疾病进展分期:病理是恶性肿瘤诊断的金标准,但是穿刺活检是有创性检查,患者依从性较低,且诊断的准确性受到穿刺部位、病理医师主观性的影响,诊断标志物模型可以选择与病理类型、疾病进展关联度较高的指标,准确地进行分型和分期,避免了病理诊断的缺点和不足;(3)确定肿瘤患者病因学及预后的因果关系:绝大多数恶性肿瘤的致病机制尚不明确,与治疗预后相关的因素也难以确定。采用非监督学习方法,可以发现恶性肿瘤发生发展及预后评估中的关键因素,为疾病的干预方案选择和调整提供参考。


目前的文献研究结果显示,机器学习算法在脑部肿瘤、乳腺癌、白血病、前列腺癌、肺癌、皮肤癌、卵巢癌、大肠癌、肝癌等疾病诊断中得到了应用,其诊断准确率超过90%[3-12]。Eiryo Kawakami[9]团队在2019年采用机器学习算法结合血液学指标对卵巢癌的临床分期、组织类型、预后等方面进行了建模诊断。研究对象为334例上皮性卵巢癌(Epithelial Ovarian Cancer,EOC)和101例良性肿瘤,采用32项外周血检测指标作为模型的输入数据。结果显示,通用梯度回归模型(Generalized Boosted Regression Models,GBM)对良恶性肿瘤的诊断准确率达到93.7%。而采用RF算法对临床分期和组织分型的诊断准确率分别达到69.0%和75.8%。分割聚类(Partitioning Around Medoids,PAM)算法是一类非监督学习方法,该研究采用PAM可准确预测卵巢癌患者的无复发生存期(Relapse Free Survival,RFS)。Hui Li[10]等采用医院电子病例系统收集了582例大肠癌及582例健康对照数据,选择CEA、HGB、Lp(a)、HDL4项血液标志物作为建模指标,比较了Logistic回归、RF、SVM、KNN、NB 5类机器学习算法用于诊断大肠癌的价值,结果显示Logistic回归方法效果最佳,其敏感度为89.5%,特异度为83.5%,AUROC达到0.865。地坛医院的Xiaoli Liu[11]团队构建了一个梯度提升生存(Gradient-Boosting Survival,GBS)分类模型用于肝癌的预后危险度分层,采用的参数包括临床特征、血液学参数和T细胞功能参数。模型可根据患者的各项指标计算风险因子,该因子与患者的BCLC分期、Child-Pugh分级及门静脉肿瘤血栓形成明显相关。Sherry Bhalla1[12]团队利用生物信息学手段获得558例甲状腺癌患者的RNA表达谱数据,并通过RF、SVC等机器学习方法进行肿瘤的分期,其AU ROC可达到0.95。


从技术层面而言,机器学习存在最大的问题是过拟合现象,也就是建立的模型过度依赖对训练数据的拟合,而在新数据的推广使用中会出现准确率降低的情况,所以在测试模型中保持数据集的独立性非常重要,且在模型建立中尽可能获得更多的数据并保持数据集的更新。随着医疗技术的发展,将机器学习技术深度融合至新一代的医疗诊断手段中,也无疑会使人工智能技术成为新的医疗诊断领域宠儿。尽管目前看来人工智能技术在医疗诊断领域前景广阔,但作为一种相对超前和新颖的技术方法,临床的认可度仍需要得到加强,如何将传统医学诊断技术和人工智能技术有效地整合至临床实践中仍有不小的挑战。


参考文献


Ibrahim IM, Abdulazeez AM. The role of machine learning aalgorithms for diagnosing diseases. Japanese viral encephalitis[J]. J Applied Sci Technol Trends, 2021: 10-19.

Mehrbakhsh NA, Neda AB, Sarminah S, et al. Disease diagnosis using machine learning techniques: a review and classification[J]. J Soft Computing and Decision Support Systems. 2020: ???19-30.

Gokalp C, Bulent GE. Classification of brain tumors by machine learning algorithms, IEEE, 2019.

Naresh K, Nidhi M. Breast cancer diagnosis using adaptive voting ensemble machine learning algorithm. IEEE, 2018.

Nashat A. Ensemble machine learning for leukemia cancer diagnosis based on microarray datasets. Int J App Eng Res. 2019, 14(21): 4077-4084.

Oyewo OA, Boyinbode OK. Prediction of prostate cancer using ensemble of machine learning techniques. Int J Ad Comp Sci Applicat. 2020, 11(3).

Nikita Banerjee Subhalaxmi Das. Prediction lung cancer-in machine learning perspective. IEEE, 2020.

Vidya M, Maya VK. Skin cancer detection using machine learning techniques. IEEE, 2020.

Eiryo K, Junya T, Nozomu Y, et al. Application of artificial intelligence for preoperative diagnostic and prognostic prediction in epithelial ovarian cancer based on blood biomarkers. Clin Cancer Res. 2019, 15; 25(10): 3006-3015.

Hui L , Jianmei L, Yanhong X,et al. Colorectal cancer detected by machine learning models using conventional laboratory test data. Technol Cancer Res Treat. 2021, 20:15,330.

Xiaoli L, Jilin L, Guanxiong Z, et al. Machine learning approach yields a multiparameter prognostic marker in liver cancer. Cancer Immunol Res. 2021 Mar; 9(3):337-347.

Sherry B, Harpreet K, Rishemjit K,et al. Mexpression based biomarkers and models to classify early and late-stage samples of papillary thyroid carcinoma. PLoS One. 2020 Apr 23; 15(4): e0231629.