人工智能知识图谱在基因诊断中的应用

作者:曹彦东
2021-12-16

截至2021年4月底,OMIM公布了6860种已知分子致病机制的孟德尔遗传病[1],其中相当一部分疾病属于罕见疾病。这意味着不可能有任何一名临床医生遇到所有种类的遗传病患者,也就不可能对每种遗传病都能凭借充足的临床经验给出明确的诊断。可以毫不夸张的讲,每一次诊断都无异于大海捞针,需要不断地调整方向进行尝试和确认,诊断周期可能长达数周,即便如此,到最后仍然可能一无所获。

但可喜的是,这一难题有望得到解决。随着近几年人工智能技术(AI)和基因检测技术的快速发展,对一些有趣的现象正悄然发生改变。临床医生所熟悉的查房环节,由教学现场转变为路演现场。疑难杂症反而成为年轻医师展示自己的案例,主任医师则转变为专家评委进行现场点评。

这一切转变都源于我们熟悉的互联网技术的进步。现在人们通过手机的谷歌学术搜索,将患者的某些特殊表型输入,点击搜索找到文献,通过对照文献报道的临床案例和自己眼前的患者,可以大大缩短诊断时间。为了扩大使用范围并进一步提高效率,需要将这一功能开发成生物医疗领域的专业化系统工具。目前,市场上已经涌现一大批生物医疗领域的企事业单位,相继推出了一系列产品和服务,简要归为3类:(1)将国际标准临床表型词条汉化[2],并实现联想输入;(2)AI知识图谱技术,实现“基因”-“疾病”-“表型”的关联,并根据打分排序输出搜索结果,如phenolyzer[3],phenomizer[4],安识因医学知识库系统[5];(3)基因测序技术,从遗传分子水平辅助诊断,如TGex[6],MasterMind[7]

现在重点介绍AI知识图谱技术在基因诊断方面的临床应用。知识图谱是大数据和AI的前沿研究问题,其独有的技术优势顺应了信息化时代的发展。把临床数据、临床指南、基因组学数据通过大数据和知识图谱结合,实现核心医学概念的全面覆盖;构建综合智能医疗系统,为临床医生、患者和科研工作者等提供帮助,推进精准医疗。因此,如何将AI+医疗在工业界快速落地,构建一个简单实用、可扩展的医疗知识图谱是目前关注的话题。知识图谱的构建主要分为4层:(1)数据层:数据源主要来自于医学领域核心概念及丰富的临床证据,并通过真实世界证据和经典病例分析形成医学知识;(2)图谱构建:使用知识图谱及NLP相关技术来构建图谱;(3)数据平台:完成数据的获取、清洗处理、存储和分析;(4)智能服务:提供可视化、问答、决策等服务。

这其中数据平台中涉及的数据获取和清洗处理,需要引入基因组、转录组、蛋白组、代谢组信息。尤其基因组,可以作为受检者稳定的信息锚点,不会随着时间和环境的改变而波动。然后随着其他组学信息,个人临床信息,甚至家族史信息的不断引入,可以强化数据的清洗,增加医学场景。为医学知识图谱的建设和不断迭代,提供详实的案例支持。

医学知识图谱能否替代临床医生呢?这是一个饱受争议的话题。但从大名鼎鼎的Watson HealthCare被IBM出售的结局来看,医学知识图谱需要调整自身定位,为临床决策提供支持才是目前的核心应用。医疗决策支持系统可以根据患者症状描述及化验数据,给出智能诊断、治疗方案推荐及转诊指南,即所谓的诊前决策、诊中决策和诊后决策三大应用场景。临床决策支持系统的开发难度较大,尤其对知识图谱的完备性和质量要求较高,能够覆盖足够多的疾病和症状才能进行诊断。

目前更加容易实现的是医疗信息检索。医疗搜索引擎主要面向对象为医疗行业的从业者。基于知识图谱的搜索引擎与传统的搜索引擎相比能够更好的理解用户的语义,优化用户的问句,根据知识图谱对搜索词条进行优化。以丁香园为例,其面向医生、医疗机构、医药从业者,提供医疗知识的交流与检索,目前已经取得了不错的效果。

为了进一步提升用户体验,人机交互系统应运而生。这需要NLP的技术来实现,包括问答系统、语义解析、语音识别等。结合传统的影像识别和基因检测结果,可以快速指明检测方向并得到验证,最后给出验证结果。

最后,我们以罕见病马凡氏综合征为例,介绍AI知识图谱在基因诊断方面的应用。马凡氏综合征(MFS)是一种遗传性结缔组织疾病,主要表现为骨骼、眼和心血管系统受累,易引发主动脉夹层和/或主动脉破裂,进而导致死亡。MFS患病率0.065‰~0.2‰[8,9]。如果不做基因检测,根据2010年修订版Ghent标准,无家族史的患者,只有主动脉根部Z评分≥2,或者晶状体异位,是无法被确诊为马凡氏综合征的。如果做基因检测,我们就要了解FBN1基因,其位于人类第15号染色体上,横跨239kbp,65个编码区,共8616个碱基,编码2871个氨基酸。目前报道的FBN1基因相关突变超过1,800个,符合临床诊断标准的MFS患者检出FBN1基因突变的比例为70%~93%[10,11]。如果不使用AI知识图谱,这些已知的致病位点无法凭记忆搜索。如果不使用AI知识图谱,每个经过基因检测的样本,提供的不过是信息孤岛,无法向他人分享其在致病性等级判别过程中所收集的大量证据。


参考文献

  1. Online Mendelian Inheritance in Man, OMIM®. McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University (Baltimore, MD), {date}. World Wide Web URL: https://omim.org/

  2. 2016年初,在华大基因杨焕明院士与HPO创始人Peter Robinson教授的推动下,成立了中文人类表型标准用语联盟(The Chinese Human Phenotype Ontology Consortium, CHPO)

  3. Hui Yang, Peter N. Robinson, Kai Wang. Phenolyzer: phenotype-based prioritization of candidate genes for human diseases. Nature Methods, 12:841-843 (2015).

  4. Ullah M.Z. Aono M. Seddiqui M.H. Estimating a ranked list of human hereditary diseases for clinical phenotypes by using weighted bipartite network.

  5. 获北京新技术新产品(服务)认证,用于多种遗传性心血管病的基因筛查,广泛应用于医疗行业。

  6. Dahary D, Golan Y, Mazor Y, Zelig O, Barshir R, Twik M, Iny Stein T, Rosner G, Kariv R, Chen F, Zhang Q, Shen Y, Safran M, Lancet D, Fishilevich S. Genome analysis and knowledge-driven variant interpretation with TGex. BMC Med Genomics. 2019 Dec 30;12(1):200. doi: 10.1186/s12920-019-0647-8. PMID: 31888639; PMCID: PMC6937949.

  7. Comprehensive Genomic Search Engine, https://mastermind.genomenon.com

  8. Groth KA, Hove H, Kyhl K, et al. Prevalence, incidence, and age at diagnosis in MarfanSyndrome[J]. Orphanet J Rare Dis, 2015,10: 153. DOI:10.1186/s13023-015-0369-8. 

  9. Chiu HH, Wu MH, Chen HC, et al. EpidemiologicaMarfan syndrome in a general population: a national database study[J]. Mayo ClinPr

  10. Loeys B, De Backer J, Van Acker P, et al. Comprehensive molecular screening of the FBN1 gene favors locus homogeneity of classical Marfan syndrome[J]. Hum Mutat, 2004,24(2):140-146. DOI: 10.1002/humu.20070. 

  11. Dietz HC, Cutting GR, Pyeritz RE, et al. Marfan syndrome caused by a recurrent de novo missense mutation in the fibrillin gene[J]. Nature, 1991, 352(6333): 337-339. DOI: 10.1038/352337a0. 

杂志后跟_副本.png