宏基因组测序技术临床应用解决方案

作者:盖伟
作者单位:微岩医学科技(北京)有限公司 2023-11-08

盖伟,博士 、高级工程师。现任微岩医学科技(北京)有限公司CEO,高级工程师。获北京市科技新星,北京市优秀青年骨干人才,北京市优秀青年工程师。曾任博奥生物集团有限公司转化医学研究院副院长,北京市经济开发区专家智库专家,北京市经开区第三届青年联合会委员,中国医疗保健国际交流促进会临床微生物与感染分会委员,2022年度中国科协“科创中国”创业就业先锋。深耕病原微生物精准检测领域十余年,作为核心骨干参与了多个国家重大项目研发;长期致力于基于高通量测序、微流控芯片平台临床感染诊断技术产品的研发。在Nucleic Acids Res.、Emerg. Infect. Dis. 、Clin. Infect. Dis.等期刊发表文章十余篇。获专利30余项,软件著作权17项。

宏基因组测序技术(metagenomic next-generation sequencing,mNGS)通过对样本中的所有核酸进行测序并对数据进行分析,来识别病原微生物的核酸序列,以诊断感染性疾病的致病原因。该技术具有无偏移、全覆盖、高效率等优势,无需培养,可一次性完成细菌、真菌、病毒和寄生虫等多种病原体检测,是感染疾病诊断领域唯一的精准诊断和个体化医疗技术。mNGS的整体技术流程可以分为湿实验和干实验两部分,本文针对这两部分流程中我们所做的工作与心得体会向同道进行分享。

一、mNGS-湿实验

1. 核心问题:mNGS的湿实验流程可以分为核酸提取、文库构建和测序。其中,核酸提取上是决定最终是否能够成功检出病原体的关键因素。目前,测序环节主要使用华大和因美纳这两家的测序仪器。由于文库构建本身的偏差较小,测序仪也相当稳定,所以目前mNGS结果的差异主要来源于临床标本和病原微生物的复杂性。核酸提取过程中,存在着三个核心问题,包括mNGS宿主效应、高效破壁“泛提取”病原核酸、以及工程背景菌污染。我们将重点关注和优化这些问题。

2. mNGS宿主效应:mNGS与传统PCR分子诊断技术相比具有重要的差异,这个差异对临床医生理解和解释mNGS的结果具有重要意义。其中,宿主效应是与mNGS密切相关的一个问题。对于宿主效应的解释如下:假设在不同宿主细胞含量下的气管支气管肺泡灌洗液(bronchoalveolar lavage fluid,BALF)样本中均加入100 CFU(colony forming units)的大肠埃希菌,核酸提取后,大肠埃希菌的核酸量是相同的,但是人源核酸的量不同。而传统PCR技术使用引物进行靶向扩增,只要大肠埃希菌数量达到PCR检测限,无论样本中宿主核酸含量如何,结果都会呈阳性。然而,mNGS是对标本中所有核酸进行随机测序,因此会产生不同的结果,不同的宿主背景之下,病原菌的检出结果会有差别。中国食品药品检定研究院的刘东来老师曾多次撰文指出该问题,包括在中国医药报和发表在柳叶刀子刊杂志的文章都有相关论述[1, 2]。因此,在确定mNGS方法学灵敏度时,需要考虑病原体丰度(成正比)和宿主含量(成反比)两个因素[3]。特别值得注意的是,2021年发表于EBioMedicine的文章揭示了一项重要数据:目前mNGS检测可以在24小时内、测序数据量为20M的条件下,在含有1×105 cells/mL人源背景的样本中可以检测到浓度≥500 CFU(或copies)/mL的病原微生物[1]。

由于感染患者标本状态复杂、人源细胞含量变化范围大,为了解决这个问题,基于细胞预计数来进行选择性去宿主是最佳方案。当人源细胞含量低于105 cells/ml时,可以考虑不进行去宿主操作,例如在脑脊液标本中。在临床中,常见的病原检测标本为BALF和血液,这两类标本中均含有大量的人源细胞。特别是在某些感染患者中,由于患者的免疫反应,其人源细胞的含量可能会进一步增加,可达到107-108 cells/mL。对于这些标本,进行宿主去除可显著提高mNGS的灵敏度。

针对宿主效应问题,微岩医学开发了一种新的mNGS病原核酸富集提取新系统,称为PathoXtract[®]技术。该技术包含了高效柔性人源宿主去除技术,能够将99.9%的人源宿主核酸进行去除。加州大学的Karsten Z团队和麦考瑞大学的Honghua Hu团队的研究结果表明,宿主去除是提高病原体检出的有效方法[4]。华盛顿大学的Maria T Nelson团队研究表明,宿主去除过程对于铜绿假单胞菌、支原体等某些敏感菌容易大量损失[5]。我们对比了运用PathoXtract[®]技术进行宿主去除与QIAGEN的不剔除方法,在检测300份呼吸道肺泡灌洗液标本时,统计了近800个病原的检出情况,其中包含58个病毒、354个革兰阴性菌、236个革兰阳性菌和118个真菌。结果显示,近800个检出的病原体中,使用PathoXtract®技术的综合获益指标占比94.3%,宿主去除后检出的序列数提高了10-1000倍;仅有约5.7%的病原指标检出reads数有1-10倍的降低。总体而言,由于高宿主背景干扰,不剔除宿主的情况下,很多病原体指标可能会被漏检(宿主去除后检出100条序列数以上的病原,在不进行宿主去除时才有可能检出)。

3. 高效破壁:能够引起感染的微生物种类非常多样,其中包括一些厚壁微生物,比如结核分枝杆菌、真菌等。这些微生物具有特殊的细胞壁构成,使得传统的微生物裂解方法难以有效破壁,检测效果较差且效率低下。

厚壁微生物在其细胞壁中含有多层复杂的结构,例如脂类、多糖和蛋白质等,这些成分使得细胞壁更加坚硬且难以破坏。传统的破壁方法采用单一的化学物质或物理力量来破坏细胞壁,然后,这些方法在处理厚壁微生物时效果较差。化学物质可能无法渗透到细胞壁内层,而物理力量可能无法产生足够的压力或剪切力来有效破坏细胞壁。因此,厚壁微生物的检测受到传统方法的限制,对其进行有效的破壁成为了一项挑战。

为了解决厚壁微生物的裂解问题,微岩医学研发了物理+化学的双重破壁技术。该方法结合了玻璃珠击打和强裂解液破碎的方法来实现微生物细胞壁的全面破坏。裂解液中含有能够迅速溶解微生物细胞壁的化学物质,而玻璃珠的冲击力则能够进一步加速微生物的破碎,从而使微生物的细胞组分完全裂解。这种双重破壁技术的关键在于能够充分破坏厚壁微生物的细胞壁,真菌孢子的破壁率达98%。

经过实验验证,采用物理+化学双重破壁技术的样本处理方案对比单一的物理方法、化学方法及生物酶处理,能够将结核分枝杆菌和烟曲霉的检测效率提升20%以上。这种技术能够充分释放出微生物的核酸,降低因微生物难以破壁裂解而导致的假阴性结果。

4. 工程背景菌污染:mNGS由于具有高灵敏度的检测能力,对试剂中存在的工程菌也非常敏感。然而,这些工程菌可能导致mNGS结果出现假阳性,从而干扰临床判读。由于商品化的提取试剂盒中含有大量内源性微生物背景,为了避免引入工程背景菌的污染,微岩医学自主研发了PIseq[®] bgCLEAN®技术,极大地减少了试剂盒中的工程菌的背景噪音。bgCLEAN®技术优势在于:(1)从底层原料开始,完全自主生产提取试剂盒和建库试剂盒的无菌生产工艺;(2)严格遵循ISO155189质量体系下的实验室检验流程管理。通过对比实验,微岩的bgCLEAN®试剂与常规商业化试剂盒相比,在mNGS检测中背景菌的检出率显著降低。

5. DNA+RNA共建库技术:在呼吸系统中,RNA病毒的感染易发性较高。为了全面检测包括DNA和RNA病原在内的所有感染源,传统的mNGS检测需要进行两次检测,包括DNA检测和RNA检测。传统的RNA检测流程需要先将RNA反转录成cDNA,包含两个步骤:首先是以RNA为模板反转录合成第一条单链DNA,形成RNA和DNA的杂交链;然后以此第一条单链DNA合成第二条DNA,形成双链DNA。接下来再按照DNA建库的流程进行建库和检测。这个过程繁琐复杂,而且DNA和RNA的分开检测也增加了测序成本,不利于临床推广使用。因此,微岩医学开发了DNA+RNA共建库技术。该技术将DNA和RNA混合,只需进行第一步反转录过程,然后使用能识别双链DNA和DNA/RNA杂交链的工具酶。该酶能同时识别双链DNA和RNA-DNA杂合链,并将其分解成小片段,随后进行后续的建库流程。我们的DNA+RNA共建库技术简化了反转录步骤,实现了DNA和RNA的同时检测。在保证质量的前提下,有效缩短了时间,实现一次检测真正的覆盖所有潜在的病原微生物。

二、mNGS-干实验

mNGS干实验是指对测序仪的下机序列进行生物信息学分析,从而进行序列比对和物种鉴定,以产生最终的报告结果。干实验分析流程主要包括:数据预处理,去除低质量的序列;与人源基因组比对,去除人源序列,获得目标序列;将目标序列进行聚类分析;将目标数据与非冗余参考基因组数据库进行比对,计算每个基因的丰度,得到目标物种分类信息。干实验分析影响最终的报告结果,其关键点包括物种比对算法和病原数据库建设。

1. 物种比对算法:基于测序结果进行序列比对以获取微生物的鉴定结果是影响mNGS检测结果的关键环节。在这一环节中,物种鉴定精度的高低直接影响mNGS结果的好坏。为此,微岩医学创新性地采用了两种比对方法,将非人源序列与临床级病原微生物基因数据库进行比对注释,形成双引擎独立鉴定+交叉验证的病原微生物鉴定流程。该流程通过对两种算法的鉴定结果进行交叉验证,确保物种鉴定结果的准确性,避免单一比对算法带来的漏检和错误比对的问题。实验证明,该流程的准确度显著优于国际顶尖分类器Kraken2。

为了实现对宏基因组的整个测序结果的自动化分析,我们对分析流程进行整合和优化。该分析流程包含数据质控模块、人源序列比对模块、物种注释模块、临床注释模块、功能注释模块、知识库模块、实验室管理系统、丰度计算比对分析,仅需几分钟时间即可快速得到标本的物种鉴定结果。

2. 临床级别的病原数据库搭建:关于数据库方面,PIseq®-pathoDB™临床级数据库极大提高了病原鉴定的精确性和特异性。在数据库构建过程中,最初认为病原数据库就是从网上收集已经公开的基因组数据,但实际操作起来非常复杂。网上公开的大量的微生物数据来自于各个学术圈和全球研究机构的提交,在提交的过程中方法、样本来源和测序质量等都完全不可控。此外,不同微生物的研究频率也不相同,如大肠埃希菌能找到几十万条基因组,而不常见的微生物可能只能会找到一条基因组。这其中存在着杂乱的、有大量污染的和错误标记的基因组,这些都会严重干扰到最终的准确性。

因此,微岩医学自主构建了临床级病原数据库,包括基本构建、错误纠正和去冗余。基本构建基于k-mer的策略,将基因组打断为有重叠的片段,对片段序列进行分类,以获取基因组中的污染区域,并标记序列中的低复杂区域和污染区域。错误纠正阶段基于标记基因评估基因组序列的完整性和污染程度,采用遗传距离进行初步聚类,然后使用ANI值进行二次聚类,最后生成的距离矩阵构建系统发育进化树来修正标记错误的序列。去冗余阶段基于泛基因组的理论,采用从头组装的策略,构建物种的泛基因组序列,即在保证序列的特异性区域完整性的同时去除冗余区域。

三、mNGS全流程质控

在湿实验的各个环节中,假阳性问题需要引起重视。为了控制假阳性,微岩医学推出了PIseq[®]质控解决方案。在临床标本中,造成假阳性的原因主要是标本本身的污染。因此,要对临床样本的取样和运输过程进行严格规范。在核酸提取过程中,可能引起气溶胶污染和工程菌污染,因此必须严格按照无菌工艺生产,并遵循ISO 15189质量体系下的实验室检验流程管理。此外,在文库构建过程中容易出现批内接头污染,而在上机测序过程中容易产生批间接头污染。为了解决这个问题,微岩医学的解决方案是设计了带有特异性双端index标签(UDI)的1000组接头,并将最小轮转间隔延长至10天来降低接头污染的发生。

对于假阴性的控制,首先要从源头着手进行控制。在原始样本加入“非致病菌颗粒内参”作为内标,以进行全流程的mNGS合格性监控。其次,使用核酸富集提取系统PathoXtract®技术提高病原菌的检出效率。此外,在不同的核酸提取浓度下,内标检出范围也有所不同。这也是值得注意的因素。

四、临床样本检测应用

临床血流感染中,大约有20%-30%的病原不明情况。血培养是诊断血流感染的金标准,其技术敏感度很高,可以检测到1-3 cfu/ml的细菌数量,但临床阳性率偏低(10-12%)。从审批的角度来看,目前国家药监局批准的分子诊断试剂中,极少有用于检测细菌和真菌性血流感染的产品。mNGS技术也仅通过血浆中游离核酸来检测血流感染,文献报道的总体阳性率为48.6%,但游离核酸检测存在半衰期短,采样窗口敏感的问题;血液中存在的胞内菌、厚壁菌难以释放游离核酸,可能会漏检;另外,难以判断检测到的微生物游离核酸的来源和致病性,并且与培养法检测靶标不一致[6]。

基于以上问题,微岩医学在2020年6月成为国内首家推出特色PIseqHS™超敏外周血检测产品的公司。该产品首次挑战了对同一血液标本进行血浆层和血细胞层共同检测的理念。血浆层检测的意义在于能够提示局部入血的病原和局部感染,但所检测的是已凋亡的病原释放的游离核酸。而血细胞层的检测则是挑战血液中的活菌和胞内菌颗粒,与血培养的靶标一致。在血细胞层的检测中,面临着大量红细胞和白细胞的干扰以及极低的病原菌丰度的难题。PIseqHS™超敏外周血检测产品通过使用PathoXtract[®]试剂盒来处理血细胞层,从而得到活病原颗粒的核酸。该产品可以提供血浆层非活病原和血细胞层活病原的双维度报告,从而为临床提供更多的信息。在2021年10月发表于Emerging Infectious Diseases期刊上,微岩医学与齐鲁医院王刚教授团队合作,使用PathoXtract®技术去除血细胞中人源宿主干扰,通过超敏血产品检测血细胞层微生物,确诊为康诺尔立克次体印度亚种,揭示了SFGR(立克次体感染)的特异性病因[7]。在2023年10月发表在Biochemical and biophysical research communications杂志上,微岩医学与天津医科大学第二医院合作的研究表明,它与血培养相比,血细胞mNGS的灵敏度高于血浆mNGS(72.13% vs 67.21%),血细胞mNGS检测到的可培养病原体的RPTM值高于血浆mNGS。在区分血流感染和非血流感染患者方面,全血mNGS检测的灵敏度显著高于血浆mNGS检测(85.21% vs 69.82%)[8]。

五、mNGS本地化方案

为了提高感染检测的时效性和内部病原体的稳定性,将感染检测过程转移到本地实验室变得必要。针对这个需求,微岩医学开发了Patholab™病原实验室系统以及PathoReport[®]自动化智能报告系统,这些系统能够提供高效的病原体检测服务,并自动生成智能报告。

Patholab™病原实验室系统继承了设备、试剂和程序三位一体,完美地结合在一起。该系统是业内首款专为mNGS全流程湿实验设计的全自动化设备。它能够在5小时内完成1-24个标本的破壁、提取、建库和纯化等湿实验流程,实现了一个人在一个机器和一个工作台上的操作。这大大简化了mNGS技术前端复杂的流程。通过对不同类型和状态的标本经过简单的预处理,自动化流程在机器内部完成双重破壁、核酸提取、核酸纯化、文库构建等步骤。它省去了qPCR体系配制、反应和Ct值抄录等步骤,直接进行Pooling,系统会自动计算。该系统采用基于核酸富集和双端筛选的自动化建库方案,主要考虑到临床标本的多样性和不同标本状态的特点。系统内部嵌入了OTDC模块,保证低核酸标本能够成功建库。该方案能够将各文库核酸片段富集在350bp范围内,文库浓度在2-8ng/μl之间,从而大大提高了测序效率并保证结果质量的稳定性。另外,为了确保系统不受污染,还设计了通风、过滤、消杀、封膜和UDI标签等五个防污染系统。经过防污染性能测试,批内污染结果显示:手工操作的污染概率≤1 reads/10万病原reads,Patholab™污染概率≤1 reads/50万病原reads。批间污染的结果显示:手工操作的污染概率≤1 reads/50万病原reads,Patholab™污染概率≤1 reads/100万病原reads。

2021年9月,国内首部生物信息专家共识出炉,推荐使用微岩PIseq分析系统[9]。该系统报告的要点包括报告规范化,并建议将检测到的微生物序列数归一化为RPM(reads per million)或RPTM(reads per ten million)。mNGS报告中应含序列数、微生物序列数、物种信息、测序覆盖度、测序深度和相对丰度,并附加可能存在的宿主定值菌、环境菌及检测到的污染菌信息。最重要是将阳性参考阈值引入报告中。关于生物信息学流程中的“分级阈值”设定,PIseq分析系统根据专家共识做了三级分类设定:首先,根据样本的不同分为有菌样本和无菌样本;其次,根据病原的不同分类,如病毒、真菌,细菌、寄生虫等;最后是特殊阈值,如厚壁菌、胞内菌等。针对不同标本类型和不同病原,根据参考文献和专家共识,运用RPMsample/RPMNTC≥3/8这个方法来进行阈值评判。关于无模板对照(no-template control,NTC)的阴性背景,mNGS背景检出序列数在不同批次之间存在波动,不是严格的数字。因此需采用动态窗口背景的策略。多篇权威文章和专家共识提出,每个实验室都应建立背景数据库,以更好地反应本地实验室环境背景。关于特殊病原菌的阈值设定,根据权威专家共识和文献研究结果,这些病原检出1条序列数就应该给予关注。至于RPM-rC™矫正算法,近年国内外知名专家学者提出了关于mNGS病原检测阈值设定的相关条件,提示报告解读应关注不同维度的参数。RPM-rC™评分法基于机器学习算法的模式识别模型,建立了多指标分类模型,可以帮助更快地收敛、更准确地提示病原体,并降低物种假阳性检出率。总体而言,全流程最重视的是质控,系统中记录了6大环节的37个质控点,以保障检测结果准确可靠性。

近年来,mNGS技术在国内外取得了广泛的关注和快速发展,尤其在提高感染性疾病(尤其是危急重症和疑难病例)的诊断水平方面发挥了重要作用。充分整合mNGS所获得的病原体信息、转录组信息和耐药基因信息等,对于综合提高感染性疾病患者的临床管理水平具有重要意义,这也是mNGS技术发展的重要方向。相信未来更大规模、更前瞻性的临床研究能够更好地回答关于mNGS技术是否能以更低的费用改善感染性疾病患者临床管理的问题。

参考文献

Liu D, Zhou H, Xu T, et al. Multicenter assessment of shotgun metagenomics for pathogen detection. EBioMedicine. 2021; 74: 103649. doi:10.1016/j.ebiom.2021.103649

Liu D, Zhang C, Wang Y, et al. [Challenges and considerations on quality control and evaluation of pathogen metagenomic next-generation sequencing]. Sheng Wu Gong Cheng Xue Bao. 2020; 36(12): 2598-2609. doi:10.13345/j.cjb.200377

Ebinger A, Fischer S, Höper D. A theoretical and generalized approach for the assessment of the sample-specific limit of detection for clinical metagenomics. Comput Struct Biotechnol J. 2021; 19: 732-742. doi:10.1016/j.csbj.2020.12.040

Marotz CA, Sanders JG, Zuniga C, Zaramela LS, Knight R, Zengler K. Improving saliva shotgun metagenomics by chemical host DNA depletion. Microbiome. 2018; 6(1): 42. doi:10.1186/s40168-018-0426-3

Nelson MT, Pope CE, Marsh RL, et al. Human and Extracellular DNA Depletion for metagenomic Analysis of Complex Clinical Infection Samples Yields Optimized Viable Microbiome Profiles. Cell Rep. 2019; 26(8): 2227-2240. e5. doi:10.1016/j.celrep.2019.01.091

Chen H, Zheng Y, Zhang X, et al. Clinical evaluation of cell-free and cellular metagenomic next-generation sequencing of infected body fluids. J Adv Res. Published online March 6, 2023: S2090-1232(23)00068-1. doi: 10.1016/j.jare.2023.02.018

Xu N, Gai W, Zhang Y, et al. Confirmation of Rickettsia conorii Subspecies indica Infection by Next-Generation Sequencing, Shandong, China. Emerg Infect Dis. 2021; 27(10): 2691-2694. doi:10.3201/eid2710.204764

Wu C, Yu X, Gai W, et al. Diagnostic value of plasma and blood cells metagenomic next-generation sequencing in patients with sepsis. Biochem Biophys Res Commun. 2023; 683: 149079. doi:10.1016/j.bbrc.2023.10.011

中华医学会检验医学分会; 宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识. Expert consensus on the standardized management of bioinformatics analysis for the detection of pathogenic microorganisms in mNGS. 2021; 44(9): 799-807. doi:10.3760/cma.j.cn114452-20210322-00178