病原宏基因组高通量测序报告解读流程建议

作者:张栋 陆旻雅 苏慧婷 高羿 郭佳钰 赵颖 杜娟 伊洁 杨启文 徐英春
作者单位:中国医学科学院北京协和医院检验科 2023-06-20

徐英春研究员、临床医学教授、博士及博士后研究生导师。现任中国医学科学院北京协和医院检验科主任,北京协和医学院临床检验诊断学系主任,主要学术兼职:国家卫生健康委抗菌药物临床应用与耐药评价专家委员会办公室主任,国家卫生健康委全国真菌病监测网国家中心主任,中国医学装备协会检验医学分会会长,临床实验室杂志副主编等职。主持承担国家高技术研究发展(“863”)计划课题、国家科技部重点课题、国家自然科学基金资助课题、首发专项课题等20余项。发表SCI论著近百篇,中文论著200余篇、主编学术专著20余部,标准、指南、共识30余项,培养硕士博士20余名。本人及所在团队曾获国家科学技术进步二等奖、教育部科技进步二等奖、北京市科学技术二等奖等近10项科研成果。

【编者按】病原宏基因组高通量测序技术(metagenomic Next Generation Sequencing,mNGS)作为一种革命性的病原微生物检测技术,可一次性对标本中的微生物核酸进行无偏倚性检测,对于提升医疗机构的疑难罕见感染性疾病的诊疗能力,促进抗生素的合理利用等均具有显著临床应用价值。相对于其他临床检验技术,mNGS技术门槛相对高。一份标本生物信息分析后的原始物种列表可多达上千种,通常从原始列表中识别责任病原体的过程被称为报告解读,报告解读工作对于临床实验室工作人员和临床医生是一个巨大挑战。中国医学科学院北京协和医院检验科mNGS团队在临床实践过程中逐步认识到,mNGS检测过程中的质控和生物信息学分析是保证检测结果准确可靠的基础,而结合原始列表的技术解读和结合临床信息的临床解读是临床应用的关键环节,现将本实验室的报告解读流程初步总结归纳成文,供各位同行参详指正。

一、mNGS的质量控制

mNGS的实验步骤复杂,为更好地降低人为或环境因素造成的实验偏差,建议mNGS实验室建立完善的质量控制体系。一般来讲,mNGS的质量控制体系可分为检测前质控、检测中质控、检测后的报告分析质控[1]

1. 检测前质控:(1)标本采集过程及容器遵守严格无菌;(2)标本采集后应及时送检,不同标本类型的保存和转运要求不同。标本采集完成后,建议2小时内转运至检测实验室。除血浆标本外,其他标本类型均建议在4℃条件下保存和转运[2](3)由于不同标本类型的前处理步骤存在较大差异,正确标注标本类型和检测编号至关重要,建议双人核对。

2. 检测中质控:(1)核酸浓度测定:当提取浓度低于检测限时,可以通过荧光值判断提取是否成功;(2)核酸纯度测定:提取核酸中存在酒精等杂质会影响酶切或扩增效率。纯DNA的A260/A280应大于1.8,纯的RNA应达到2.0,样品中如果含有蛋白质及苯酚,A260/A280比值会明显下降[3](3)文库浓度:mNGS建库可选的试剂包括基于PCR的试剂和PCR-free的试剂两种,均需要对建库后的文库浓度进行测定以判定建库实验是否成功[4](4)文库片段分布测序:mNGS核酸提取过程引入的carrier RNA、打断过程中产生的不均一性核酸片段和建库过程引入的引物等核酸片段并非均有价值,需要在纯化文库的过程中进行片段筛选,过多的carrier RNA或长片段核酸存在于文库中会增加混合文库实验的难度,且会降低有效测序数据量。因此,需要对文库片段长度分布进行检测。

3. 检测后的报告分析质控:(1)数据量:应对整张芯片的数据量和每份标本的数据量分别进行分析,数据量过低会降低检测敏感性导致假阴性风险。(2)外源性内标:通过加入外源性内标可以监控整体实验流程是否成功;同时,实验室可通过内标序列的多少推断病原浓度。(3)测序质量:碱基质量值过低会导致生物信息学分析失败可能性增加,Q30大于等于80%是许多专家共识中提到的要求之一[5](4)阳性质控:建议实验室使用含有宿主细胞和代表性病原体的模拟标本作为阳性质控,质控稀释基质可以使用既往阴性标本,病原体浓度建议设置为最低检测限的3倍左右[4](5)背景核酸:背景核酸是每个mNGS实验室都需要持续关注的,背景核酸的变化会直接影响实验室阳性阈值的设定,建议每个月更新一次背景核酸模型[4]

二、生物信息分析

mNGS是基于高通量测序技术来对标本中的微生物核酸进行检测,来实现临床上感染病原诊断的目的。从高通量测序得到的原始数据需要通过生物信息学分析计算来获得标本中包含的微生物信息。生物信息分析流程主要包括了以下4个步骤:

1. 原始数据拆分:本实验室使用NextSeq CN500测序仪进行测序,测序结束得到的是单个读取碱基baseCalling的BCL文件,需要通过bcl2fastq软件将BCL文件转换成我们常用的Reads数据以fastq的格式进行保存。本实验室每次检测会混合20个标本同时进行上机,bcl2fastq软件会根据每个标本添加的唯一序列标签,把数据拆分到每一个标本。

2. 低质量过滤:将拆分后的数据通过fastp、Trimmomatic或Adapter Removal等软件过滤低质量序列。包括过滤接头序列、低质量序列、短读长序列、N碱基含量过高的序列等。

3. 人源基因过滤:在测序数据中未经过去宿主流程的人源背景占85%以上[5],需以人源基因库为参考基因组过滤掉人源基因,常用人类参考基因组数据库包括:Human GRCh37/hg19和GRCh38/hg18基因组数据库、中国人标准基因组“炎黄一号”数据库、线粒体基因组数据库。常用比对软件包括:BWA、Bowtie或Kraken等。

4. 微生物物种注释:微生物物种注释是将序列与数据库进行比对,获得序列最接近匹配的物种信息以及序列在该物种基因组上的覆盖度等信息。将通过人源基因过滤后剩余非人源高质量序列输入到微生物物种注释分析流程,目前已经发表的分析方法包括PathSeq、RINS、CAPSID、VirusSeq、VirusFinder、READSCAN、Kraken、SURPI、RIEMS、Pathosphere.org、CS-SCORE、VERSE和VIP等[6]。不同的数据分析方法采用了不同的软件、处理流程,每个分析流程有不同的优势,在mNGS检测中常用的一种是开源的SURPI分析流程。SURPI分析流程使用了SNAP和RAPSearch软件,优势在于速度快[7]。也可根据需要选择不同的软件自由搭建分析流程,或选用商业化分析流程。比对数据库常用的公开微生物参考基因组数据库包括:临床级微生物数据库、全球微生物数据中心、基因组分类学数据库、综合微生物基因组数据库和特定物种基因组数据库5。自由搭建的或商业化分析流程可采用自建数据库,通过生物信息学软件从不同公开数据库中筛选所需基因组序列组成本实验室的比对数据库。

目前mNGS尚无统一的标准化湿实验与干实验流程,生物信息学分析流程各实验室存在一定差异且无标准化的生物信息分析质量控制方法。因此无论是使用配套分析流程或自建分析流程在mNGS项目开展前应进行充分的性能确认[4]。同时在mNGS项目开展后,在日常检测中本实验室使用了商业化流程与自建流程两种流程来进行互相验证。

三、解读

1. 技术解读:目前,多数专家认为mNGS的解读流程整体上可分为技术解读和临床解读两个部分。其中技术解读主要负责对分类到某一物种的序列特征包括序列长度、序列复杂度、序列特异性、覆盖度、离散度、背景核酸等技术参数进行分析,综合判定该物种是否为标本中明确存在的微生物。在本实验室中,技术解读流程主要分为以下9个步骤:

(1)查看数据质控情况,明确标本湿实验流程是否合格,主要包括以下4个方面。① 批次内阴性质控和阳性质控通过;② 单份标本测序数据量超过20M以上;③ 单份标本测序数据fq文件的碱基Q30比值超过80%;④ 单份标本内标序列数超过5条;⑤ 单份标本未检出其他标本内标;

(2)过滤背景核酸模型,找出标本中相对明确检出的微生物列表。

背景核酸通常被认为来自标本采集、试剂、耗材、生物信息分析等过程,对临床解读没有价值。实验室的背景核酸需要在建立方法学时,通过设计检测不同标本类型的阴性临床标本,建立实验室内部可用的背景核酸模型,进而根据准确性评估实验设置合理的阳性判定阈值并定期更新。

(3)查看批次内各标本物种检出情况,明确批次内的背景核酸情况后进一步筛选相对明确检出的微生物列表。

背景核酸模型代表着既往临床实验室中的背景核酸情况,随着季节、试剂、耗材变化,当批次的背景核酸可能会出现不同的变化。建议在进行报告解读前对当批次内的物种检出情况进行统计分析确定背景核酸的变化情况。

(4)分析微生物的序列特征,可从以下几个方面进行分析。① 序列数量:RNA病毒序列数低于3条建议舍弃,物种检出的多条序列完全一致时建议舍弃;② 序列长度:采取单端75bp读长的实验室,序列长度低于50bp时建议舍弃;③ 序列复杂度:序列包含回文序列或重复序列时建议舍弃;④ 序列特异性:序列比对结果显示可同时比对到多个物种时提示为非特异性比对,建议舍弃;⑤ 覆盖度:序列在基因组上不呈随机分布时建议舍弃,特异性序列数、测序深度与覆盖度值不匹配时建议舍弃;⑥ 离散度:结合覆盖度图,离散度差的物种建议舍弃。

(5)分析物种检出情况。① 当属内排名第一的物种与其它物种序列数和丰度差异低于10倍时,考虑放置属内累积占比超过50的物种;② 当属内排名第一的物种与其它物种序列数和丰度差异超过10倍时,考虑其他物种的检出源于生物信息分析过程的非特异性比对可能性大,建议只报告属内排名第一的物种。

(6)去除无致病价值的皮肤定植菌、环境菌、呼吸道微生态菌,特殊情况下建议结合临床资料放置相对丰度超过1%的微生态菌群。

对于无菌体液,mNGS以识别潜在致病病原体为检测目的;对于呼吸道,肠道等有菌部位采集的标本,mNGS的报告解读除应关注有潜在临床致病价值的微生物外,需要同时对标本检出的微生物种类进行整体分析,例如厌氧菌菌群占比增加、纹带棒状杆菌相对丰度变化、放线菌群占比超过正常健康人群等情况发生时,需考虑微生态变化的临床价值,建议结合临床信息对菌群的致病价值进行重评估。

(7)使用协和自建分析流程进行数据分析。目前,国家药品监督管理局尚未审查批准可直接应用于临床的mNGS数据分析软件和分析数据库,为保证分析结果准确可靠,建议实验室使用至少两种不同的分析流程对mNGS的分析结果进行重复验证。

(8)原始列表中同时出现同属内多个物种低序列检出时,提示数据库中可能缺少某一物种参考基因组,建议进行如下处置。①检查数据库中该属内病原体参考基因组是否完整,更新数据库后重新进行分析;②对属水平特异性序列进行组装,比对分析并构建系统发生树以探索可能的病原体种类;③必要时同时采集同类症状不同患者的临床标本,增加单标本的测序数据量,基于高数据量的下机数据进行基因组组装和比对,避免漏检新发病原体。

(9)高致病性病原体检出时,尽快使用其他方法复核并及时上报疾控部门。

2. 临床解读:在技术解读之外,mNGS的报告需结合临床进行综合解读及评判。从事报告解读或报告审核的工作人员,除临床医学知识外,建议从业者系统学习临床微生物学、生物信息学和医学影像学知识。依据不同的感染部位,不同的送检标本,结合患者的一般情况(性别、年龄、地域等)、临床表现、流行病学史、体征、实验室检查、影像学及病理结果等综合分析,方可发布较为可靠的报告。在本实验室中,我们的临床解读要点主要包括以下3个方面。

(1)明确标本类型与感染部位:选择合适的标本、规范留取标本是获得准确结果的核心。一般来说,无菌部位的标本(血、无菌体液、组织、骨髓等)优于正常有菌部位(如呼吸道标本、尿液、开放性伤口等),若有条件,优先获取无菌部位标本,如皮肤软组织感染的患者,活检组织标本优于脓液标本及皮肤拭子标本。对于呼吸道感染患者,肺活检组织及肺泡灌洗液标本优于痰标本。

分析时,需结合患者的感染部位与送检标本来综合分析。应考虑检出微生物是否为感染部位的潜在病原。注意排除常见定植菌、污染菌与背景菌的影响。

若是脑脊液、胸水、腹水等无菌体液,则在明确检出微生物非背景菌,也非于环境污染或皮肤定植菌时,需考虑其为致病病原体可能。

若为呼吸道标本、尿液等正常有菌部位标本,则需考虑检出微生物为该部位的正常定植菌、条件致病菌或严格致病菌,如呼吸道标本检出结核分枝杆菌、腺病毒、流感病毒等时,考虑为致病微生物,若检出铜绿假单胞菌、鲍曼不动杆菌等条件致病菌,则需结合临床综合分析。

对于血液标本,检出微生物存在几种可能:致病微生物、采样中污染菌、死亡微生物裂解,以及定植菌群所致的一过性菌血症。需结合临床综合分析。

(2)结合临床综合分析:临床患者的情况复杂,每一份报告的解读均需要结合临床综合分析。患者的病程、起病特点、流行病学史、临床表现及体征、影像学及实验室检查结果等对于感染性疾病的诊断具有重要价值。如聚集性起病、肺部影像学为间质性肺炎表现的患者,需警惕病毒性肺炎;有牛羊接触史、疫区到访史的患者需警惕布鲁氏菌感染;有低热、盗汗、消瘦,肺部影像学表现为上肺的实变、渗出、空洞的患者需考虑肺结核可能。

(3)阴性结果的解读:mNGS结果为阴性,对于排除感染常具有较好的阴性预测值。但对于某些病原微生物,如结核分枝杆菌、曲霉菌等,原始样本中含量较少、或核酸提取困难,需考虑假阴性可能。因此所有的阴性报告也需要结合临床综合分析。

若临床考虑感染可能性大,则需首先排除因标本采集、运输和保存不当而造成的假阴性。排除后若临床仍然怀疑感染,尤其是怀疑结核分枝杆菌、真菌等核酸提取困难的病原体感染,建议加强破壁强度复检,并结合传统微生物手段、血清学检查、其他分子生物学检查等综合判断。

若临床考虑感染可能性小或为除外感染,则可报告阴性。

四、mNGS报告解读现状与展望

本文仅对目前北京协和医院病原测序实验室的报告解读工作进行简要总结,随着mNGS技术的不断发展和不同领域的专家对这项技术的认识不断深入,目前已经有多篇专家共识关注与mNGS报告解读理论探索[8, 9]。但是,并无mNGS报告解读工作的标准操作指南,为避免不同工作人员间mNGS的报告解读结果存在较大差异,建议实验室建立报告解读的标准操作作业指导书并定期更新。所有工作人员应在完成岗前培训并通过考核的前提下上岗,尽可能地减少误诊、漏诊的概率,提高报告的正确性。同时,鉴于mNGS报告解读工作的复杂性,进修生或低年资住院医师解读的mNGS报告,须由本科室高年资的医师再次审核后方可发放报告。此外,随着人工智能的不断发展,未来人工智能在mNGS报告解读中的应用也值得关注

利益冲突:所有作者均声明不存在利益冲突。

参考文献

肖林林胡婷婷魏取好,刘维薇二代测序临床应用的质量控制临床检验杂志 37, 745-748, doi:10.13602/j.cnki.jcls.2019.10.06 (2019).

中华医学会检验医学分会临床微生物学组中华医学会微生物学与免疫学分会临床微生物学组中国医疗保健国际交流促进会临床微生物与感染分会宏基因组高通量测序技术应用于感染性疾病病原检测中国专家共识中华检验医学杂志. 44, 107-120, doi:10.3760/cma.j.cn114452-20201026-00794 (2021).

Endrullat C, Glokler J, Franke PFrohme M. Standardization and 2-9, doi:10.1016/j.atg.2016.06.001 (2016).

张栋病原宏基因组高通量测序性能确认方案中华检验医学杂志 45, 19-26, doi:10.3760/cma.j.cn114452-20220721-00426.

中华医学会检验医学分会宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识中华检验医学杂志 44, 799-807, doi:10.3760/cma.j.cn114452-20210322-00178 (2021).

周子寒彭绍亮伯晓晨李非基于高通量测序技术的微生物检测数据分析方法生物化学与生物物理进展 44, 58-69, doi:10.16476/j.pibb.2016.0239 (2017).

Naccache SN, et al. A cloud-compatible bioinformatics pipeline for ultrarapid pathogen identification from next-generation sequencing of clinical samples. Genome Res 24, 1180-1192, doi:10.1101/gr.171934.113 (2014).

中华医学会细菌感染与耐药防治分会呼吸系统感染中宏基因组测序技术临床应用与结果解读专家共识中华临床感染病杂志. 15, 90-102, doi:10.3760/cma.j.issn.1674-2397.2022.02.002 (2022).

Chinese Thoracic S. [Consensus of clinical pathways of metagenomic next-generation sequencing test in diagnosis of lower respiratory tract infections in China]. Zhonghua Jie He He Hu Xi Za Zhi 46, 322-335, doi:10.3760/cma.j.cn112147-20220701-00553 (2023).

中国医学科学院北京协和医院检验科病原测序实验室概况:

中国医学科学院北京协和医院检验科病原测序实验室目前拥有工作人员6名,其中博士后1人,博士1人,硕士1人,本科3人。团队由不同教育背景的专业人才组成,包括临床医学,检验医学,医学影像学,生物信息学,生物学等专业。实验室基础设施、设备完善,配套自动建库仪2台,高通量测序仪5台,数据分析服务器4台。实验室布局合理,分设常温库房、试剂准备间、核酸提取1区(常规标本)、核酸提取2区(高丰度标本)、建库区、测序区、PCR区、分析解读区。在检验科主任徐英春和副主任杨启文的带领下,病原测序实验室现已初步建成集临床检测、科学研究、教学示范多位一体的感染性病原体测序平台。实验室同时注重与国内多家医疗机构和公司的紧密合作,在核酸提取、去人源、背景核酸识别、快速检测、一体机研发等领域进行了多层面的研究探索。

图1. 实验室工作人员合影