知识图谱在mNGS辅助诊断中的应用

作者:DDM
2021-12-16

第二代高通量测序技术(NGS)自诞生以来在临床诊断研究中就得到了特别的重视,尤其是基于宏基因组的第二代高通量测序技术(mNGS),作为一种不需培养的新型检测技术可以深入快速鉴定未知感染病原体,相比传统培养方法拥有极高的敏感性,可以识别环境中单条核苷酸序列。一系列的临床测试成功的表明了mNGS技术在血液、尿液、脑脊液等不同类型组织液中均有很好的检出效果[1,2],大量的临床应用也正在开展(表1)。可正如一把双刃剑,mNGS技术超高的灵敏度也带了大量的问题。不可避免的试剂和环境污染,以及来自人类定植菌的干扰等问题,在mNGS结果中更加凸显。虽然更加严谨细致的实验流程被逐渐开发[3],但是mNGS测序结果中任然充满了未知和挑战,即使经过了专业人士的解读,也很难得到一致性的结果。

11.png

表1. mNGS的临床应用[4]

从AlphaGo人机大战等事件发生以来,人工智能得到了越来越多的关注。在医疗健康领域,去年在由Partners HealthCare主办的世界医疗创新论坛(WMIF-World Medical Innovation Forum),数量惊人的人工智能创新成果展示其在未来医疗诊断中的广阔应用前景。复杂多变的mNGS检测结果,正是人工智能施展的绝佳领域。知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。知识图谱本质上是语义网络,google在2012年提出这个概念时,主要用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质。模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。知识图谱是关系的最有效的表示方式。挖掘潜在关系,构建逻辑认知,通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。


医学知识图谱的构建过程包括了知识的表示、抽取、融合、推理以及质量评估五个部分。通过从大量的结构化或非结构化的诊断数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。对医学知识库内容进行消歧和链接,融合不同的知识表示,增强知识库内部的逻辑性和表达能力,并通过人工或自动的方式为知识图谱更新旧知识或补充新知识。借助知识推理,推出缺失事实,自动完成疾病诊断与治疗建议。最后进行质量评估,保障数据质量,提高医学知识图谱的可信度和准确度[5,6]。


作为人工智能的核心技术之一,将知识图谱用于辅助医学诊断的尝试,揭示了其蕴含的巨大价值[7,8]。mNGS检测数据是对环境中百万级别的核苷酸序列进行测序,并通过物种注释后得到的结果。mNGS技术就像一个功能强大的显微镜,不放过环境中任何细节的变化的同时也极易受到环境因素的干扰。痤疮杆菌是皮肤上寄生的细菌,却常见于血液样本的mNGS结果中,追溯因果竟然来自于取样的针头穿刺。更加规范、严谨的取样操作或许能减缓环境影响,但是对于真实的检测条件而言,要求统一、标准的实验条件,显然更不切实际。痰液试纸中检测得到大量的条件致病菌,如何确定感染的元凶?对mNGS检测结果进行逻辑处理,高亮嫌疑对象,辅助医生,做出更快更准确的诊断结果,这是医学知识图谱大有作为的地方。通过清洗感染病例数据,获得感染症状与感染微生物相关关系;通过大规模的mNGS数据观测获得感染微生物的数学关系。经过深度学习后,知识图谱帮助我们快速对检测结果进行机器解读,当每天面对成百上千份需要耗费大量人工解读的mNGS结果时,一个智能化辅助诊断系统就显得特别重要。

12.jpg

图1 


一个例子可以更好的理解机器学习读取临床记录构建知识图谱的过程(图1):从“主因间断咳嗽,咳痰7d,腹胀、腹痛3d,加重伴发热、呼吸困难2d入院”中,抽取实体:咳痰、腹胀、腹痛、发热、呼吸困难;从“腹部感染排除结合患者病情重症肺炎诊断明确”中抽取实体:腹部感染、肺炎,抽取关系:排除和诊断明确;定义“回报”和“阳性”为同义,从“血培养为回报为金黄色葡萄糖球菌”中抽取属性:血培养阳性,属性值:金黄色葡萄糖球菌;从“痰培养泛耐药鲍曼不动杆菌阳性”中抽取属性:痰培养阳性,属性值:鲍曼不动杆菌。将实体“肺炎”同实体“咳痰、腹胀、腹痛、发热、呼吸困难”等用关系“症状”连接起来,标记实体“肺炎”的“血培养阳性”的属性为“金黄色葡萄糖球菌”,“痰培养阳性”的属性为“鲍曼不动杆菌”。大量的记录和文献被机器读取后,不同的实体之间通过融合删减形成了一个新的巨大的关系网络。对关系网络进行模式化管理,形成不同的本体,提炼为知识图谱。

13.jpg

图2. 知识图谱辅助感染病例的诊断


使用知识图谱和大队列数据的深度学习,最终可以得到一个诊断模型,帮助寻找疾病-症候-感染之间的相互关联,对于mNGS数据结果进行权重排序,揭示潜在的感染元凶,帮助临床医生从大量的检测数据中获取最关键的信息。在典型的致病菌感染中,抽丝剥茧,寻找帮凶,推测病因。在非典型致病菌感染案例中,优度排序,排除背景,锁定线索。为最终的诊断结果提供智能化建议。大大节约临床医生的精力和时间,同时减少个性化分析中的差异性(图2)。


结语:在IT领域,搜索引擎每天从海量的信息中检索期望的结果,利用知识图谱的个性化推荐,大大改善了用户体验;在BT领域,知识图谱的应用也必将方方面面提升对于数据的深度理解,在多维的检测结果中找寻可能的轨迹,为临床医生和患者提供最大的帮助。

 

参考文献:

P. Gyarmati et al., Metagenomic analysis of bloodstream infections in patients with acute leukemia and therapy-induced neutropenia. Sci Rep 6, 23532 (2016).

M. S. Zinter et al., Pulmonary Metagenomic Sequencing Suggests Missed Infections in Immunocompromised Children. Clin Infect Dis 68, 1847-1855 (2019).

M. S. Zinter, M. Y. Mayday, K. K. Ryckman, L. L. Jelliffe-Pawlowski, J. L. DeRisi, Towards precision quantification of contamination in metagenomic sequencing experiments. Microbiome 7, 62 (2019).

C. Y. Chiu, S. A. Miller, Clinical metagenomics. Nat Rev Genet 20, 341-355 (2019).

聂莉莉 et al., 人工智能在医学诊断知识图谱构建中的应用研究. 医学信息学杂志 39, 7-12 (2018).

何霆 et al., 基于EHR的医疗知识图谱研究与应用综述. 哈尔滨工业大学学报 50, 137-144 (2018).

Y. Sumathipala, M. Shafiq, E. Bongen, C. Brinton, D. Paik, Machine learning to predict lung nodule biopsy method using CT image features: A pilot study. Comput Med Imaging Graph 71, 1-8 (2019).

W. J. Vlietstra et al., Automated extraction of potential migraine biomarkers using a semantic graph. J Biomed Inform 71, 178-189 (2017).