全基因组测序在病原菌耐药基因分型中的临床应用

作者:贾慧琼 李欣阳 阮陟 4544
作者单位:浙江大学医学院附属第一医院检验科(贾慧琼);浙江大学医学院附属邵逸夫医院检验科(李欣阳 阮陟) 2022-11-10

阮陟,博士,副研究员,浙江大学医学院临床检验诊断学硕士研究生导师。现任中华医学会检验医学分会青年教师科研创新联盟委员等学术兼职。长期从事微生物基因组学与生物信息学交叉研究。近年来发表SCI论文70余篇,授权国家发明专利1项,登记国家计算机软件著作权6项,获浙江省科学技术进步奖一等奖、浙江省医药卫生科技奖一等奖。主持国家自然科学基金、浙江省自然科学基金等科研项目7项。


贾慧琼,硕士,检验技师,就职于浙江大学医学院附属第一医院检验科,主要研究领域:细菌基因组流行病学与耐药机制研究,近5年以第一作者发表SCI论文6篇,主持国家自然科学基金1项和浙江省省自然科学基金1项。


【摘要】细菌耐药性日益严重,了解细菌的耐药机制,有助于临床精准治疗,同时也可延缓耐药性的产生。随着全基因组测序技术的日益兴起,研究者可借助此技术充分认识和理解细菌耐药基因的分型。本文主要对多种全基因组测序平台的技术特点与常用耐药基因分型工具进行综述。


【关键词】全基因组测序;生物信息学;细菌耐药;耐药基因分型


细菌耐药性是公共卫生领域的一个重大安全问题,如何对其进行有效监测与防控是一个大难题。了解病原菌的耐药机制,有助于临床精准用药。快速准确的治疗细菌感染性疾病,可缓解细菌耐药性的产生与蔓延。确定病原菌的耐药基因是研究其耐药机制不可或缺的一步。通过全基因组测序(whole genome sequencing, WGS),研究者可快速准确获得目的病原菌所携带的耐药基因。本文系统概述了WGS技术和生物信息学分析工具在病原菌耐药基因分型中的应用。


一、全基因组测序平台的介绍


高通量、短周期和低成本是新兴测序技术的关键词。大多数全基因组测序技术是将DNA随机片段化,从DNA片段的一端或两端进行测序,所得到的片段称为读段(reads)。第二代高通量测序技术平台主要由454(2005年)、Illumina(2006年)、SOLiD(2007年)与Ion Torrent(2010年)等组成。目前454和SOLiD平台已逐渐退出市场,现有的二代测序平台主要有Illumina和Thermo Fisher开发的一系列测序仪,如NovaSeq 6000、HiSeq X Ten、Ion PGM与Ion S5等。Illumina测序平台的工作原理为边合成边测序技术,通过预先建立的样本测序文库,使用荧光标记核苷酸(脱氧核苷三磷酸)来检测DNA序列[1]。Ion Torrent测序仪是首个不依赖光学系统的测序平台,通过集成的互补金属氧化物半导体(CMOS)和离子敏感场效应晶体管(ISFET)捕获DNA合成时碱基延伸释放的H+,检测溶液pH的变化,将化学信号转化为数字信号,实时判读碱基,最终获得每个DNA片段的碱基序列。Ion Torrent平台提供了多种类型的芯片和仪器,可满足不同研究人员的需求。与其他测序技术相比,Ion Torrent测序技术不依赖荧光标记以及光学图像采集技术,使其在测序的成本、速度和费用上具有不可比拟的优势。近年来,我国华大基因自主研发的MGISEQ-T7、MGISEQ-2000和MGISEQ-200等新兴测序平台,也逐渐在国际上崭露头角。其研发的DNBSEQ平台采用联合探针锚定聚合(combinatorial probe-anchor Synthesis,cPAS)和DNA纳米球(DNA nanoball,DNB)等核心技术,通过DNA分子锚和荧光探针在纳米球上进行聚合,并经高分辨率成像系统采集与数字化处理光信号后即可获得DNA序列。


以单分子实时定量(single molecule, real-time,SMRT)测序为特点的第三代测序技术,改善了测序读长偏短的问题。第三代测序的主流平台是Pacific Biosciences公司于2011年推出的PacBio RS系统(2015年推出RSII系统),其核心在于零级波导技术(zero-mode waveguide,ZMWs)[2],支持边合成边测序。借助该技术,系统可实时记录光信号,同时可检测数千个高速进行的单分子测序反应。随着电子和信息化技术的不断革新,孕育出第三代测序技术的新起之秀——Oxford Nanopore公司的MinION。其核心技术是整合于测序芯片的蛋白质纳米孔,具体原理是将蛋白质纳米孔嵌入电阻聚合物膜中,特异的马达蛋白携带已标记的单个DNA片段,通过测量DNA单链穿过纳米孔所引起的电导率变化,从而检测单个核苷酸序列[3]。由于该系统支持边测序边实时读取数据,最快仅需1min即可开始产出测序数据并能在数小时内完成测序,从而可大幅缩短测序与数据分析的流转时间。在每张测序芯片上,系统能有较长的时间读取接近原始输入长度的DNA片段,保证了芯片的高输出量。但特定的系统误差和不规范的操作流程会导致不稳定的数据读取质量,使得每个碱基识别的错误率高达15%。随着Nanopore测序芯片的升级,如2019年初发布的新型纳米孔R10,配有两对读取头(dual reader head),能够对同一碱基进行两次信号识别,准确度可达99.995%[4]。


二、全基因组测序在病原菌耐药基因分型中的应用


随着生物信息学和测序技术的发展,各类分型方法层出不穷,已有多种更高分辨率的分型策略。在细菌全基因组水平上,利用生物信息学分析方法,研究者能在基因组水平识别细菌携带的耐药基因与毒力基因,并根据其序列特征进行分类。细菌的耐药机制可分为两大类:固有耐药和获得性耐药。细菌对抗菌药物的耐药性通常是由耐药基因编码的,可通过多种机制介导,如基因的点突变、插入、丢失或通过基因水平转移(horizontal gene transfer,HGT)的方式获得外源耐药基因。从全基因组测序数据中识别耐药基因主要分为2种分析模式:一种是序列组装后比对分析(assembly-based),另外一种是直接利用测序读段映射分析(read-based)。


研究者可利用比对工具(例如BLAST[5]、USEARCH[6]或DIAMOND[7])将细菌基因组草图中的蛋白质编码区与耐药基因参考数据库进行比对,得到耐药基因的注释结果。不同数据库对同一耐药基因不同亚型的注释结果可能会存在差异,这导致了部分耐药基因的别名不统一,故应当建立规范的细菌耐药基因注释与新亚型分配系统。目前,NCBI正在积极开发细菌耐药基因参考数据库(NDARO),并提供离线版的耐药基因识别工具(AMRFinderPlus)供用户使用。基于从头组装后的注释方法要求测序原始数据有足够的测序序列覆盖度与深度以确保组装结果的准确性。另一种分析策略则是略过组装过程,直接将测序读段与耐药基因参考数据库进行映射比对(Bowtie2[8]或BWA[9]),先将读段拆分成若干大小相等的k-mer,再映射到参考数据库。SRST2[10]是一种常用的耐药基因识别工具,其原理是使用Bowtie2将测序读段映射到耐药基因参考数据库,检索菌株携带的耐药基因。KmerResistance[11]通过将测序读段拆分为若干个k-mer短片段后,映射到耐药基因参考数据库来识别耐药基因。若测序数据中存在其他数据干扰或者无法进行从头组装时,上述2种工具都可识别出测序数据中的耐药基因是否存在以及其与参考序列的相似度,但却无法识别耐药基因中的点突变。ARIBA[12]工具则解决了这个问题,该工具利用CD-HIT聚类耐药基因参考数据库中的序列,然后分别组装每个聚类的序列,再与测序读段进行映射分析,从而能显示耐药基因序列是否完整,同时报告碱基突变位点(例如错义突变或移码突变、插入和缺失等)。


上述2种耐药基因分析模式各有优缺点。测序读段映射分析方法绕过了从头组装步骤,对计算资源需求较少、耗时较短,有利于临床诊断中实时耐药基因检测;可检出复杂环境中的低丰度基因,比组装后注释的策略灵敏度更高。在实际应用中,由于菌株混样测序等原因,有时可能会混入其他测序菌株的耐药基因读段,从而造成假阳性结果[13]。研究人员可根据测序的类型、实验室计算资源和研究目的选择合适的数据分析方法与工具。另外,使用当前主流的几个耐药基因数据库ARG-ANNOT[14]、CARD[15]、ResFinder[16]及NCBI-AMRFinder[17]数据库识别耐药基因时,相同序列可能会对应不一致的耐药基因亚型注释结果。此外,基于WGS数据可利用一些机器学习方法来预测菌株的耐药性表型,其中包括深度学习模型[18](Deep learning)、随机森林模型(Random Forest)和Logistic回归模型[19]等。这些算法利用已知的耐药基因数据结合其对应的药敏试验数据进行训练,因此实验室检测的AST数据集及耐药数据库信息的丰富度和标准化是开发机器学习方法的主要挑战之一[20]。


尽管全基因组测序技术在鉴定病原菌耐药表型方面具有一定的优势,但在研究某个具体基因型与表型的相关性时,为避免假阳性,通常还需结合分子生物学实验验证。实验设计需遵守1988年Falkow提出分子科赫法则,即“基因失活造成表型消失,重建则表型恢复”[21]。例如,假定某个耐药基因的失活、突变或等位置换后,细菌应对特定抗生素的敏感性改变;突变基因的回补或等位置换后,细菌的耐药性应恢复至突变前。本课题组曾在同一患者多粘菌素治疗前后各分离出1株碳青霉烯耐药肺炎克雷伯菌(KP1-1和KP1-2)。入院24h内,血培养检出KP1-1,其对多粘菌素敏感(MIC<0.03mg/L)。多粘菌素治疗9天后,在患者粪便标本中检出KP1-2,表现为多粘菌素耐药(MIC=32mg/L)。全基因组测序发现,与KP1-1相比,KP1-2携带多个突变位点,其中可能与多粘菌素耐药相关的mgrB基因发生了提前终止突变(C88T)。而基于KP1-2构建的mgrB回补株可恢复其对多粘菌素的敏感性(MIC=1mg/L),并且mgrB的突变可引起KP1-2中phoP、phoQ和pmrD基因的高表达,但在回补mgrB原始序列后表达量又明显降低,即存在负反馈调节效应。因此,肺炎克雷伯菌中mgrB基因的失活可介导其多粘菌素耐药,从而导致临床多粘菌素抗感染治疗的失败[22]。


三、结语与展望


在过去的20余年中,基因组测序技术取得了长足的发展,曾经耗时耗力的测序项目现在仅需数小时即可完成。目前,WGS在微生物学中已有许多临床应用场景,可为如何有效监测、预警与防控多重耐药菌感染这一重要临床问题提供可行的解决方案,但这个技术仍依赖生物信息学家的信息挖掘。在病原菌耐药基因分型应用中,测序平台、序列拼接方案及耐药基因数据库的选择都会影响菌株耐药基因鉴定结果的准确性。缺少标准化的分析流程,这是WGS技术纳入常规微生物实验室的障碍之一。大数据时代,正确认识并理解运用WGS技术,开发用户友好型的分析软件,扩充、标准化,实时更新公共数据库,登记详细的病原菌基因组信息与表型信息,这些都将有利于WGS的临床研究和实践。


参考文献


Bentley DR, Balasubramanian S, Swerdlow HP, et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature, 2008, 456(7218): 53.

Rhoads A, Au KF. Pacbio sequencing and its applications. Gen Prot Bioi, 2015, 13(5): 278-289.

Ku C-S, Roukos DH. From next-generation sequencing to nanopore sequencing technology: paving the way to personalized genomic medicine. Exp Re Med Dev, 2013, 10(1): 1-6.

Wick RR, Judd LM, Holt KE. Performance of neural network basecalling tools for oxford nanopore sequencing. Gen Biol, 2019, 20(1): 129.

Altschul SF, Gish W, Miller W, et al. Basic local alignment search tool. J Mol Biol, 1990, 215(3): 403-410.

Edgar RC. Search and clustering orders of magnitude faster than blast. Bioinformatics, 2010, 26(19): 2460-2461.

Buchfink B, Xie C, Huson DH. Fast and sensitive protein alignment using diamond. Nat Meth, 2015, 12(1): 59.

Langmead B, Salzberg SL. Fast gapped-read alignment with bowtie 2. Nat Meth, 2012, 9(4): 357.

Li H, Durbin R. Fast and accurate short read alignment with burrows–wheeler transform. Bioinformatics, 2009, 25(14): 1754-1760.

Inouye M, Dashnow H, Raven L-A, et al. Srst2: Rapid genomic surveillance for public health and hospital microbiology labs. Gen Med, 2014, 6(11): 90.

Clausen PT, Zankari E, Aarestrup FM, et al. Benchmarking of methods for identification of antimicrobial resistance genes in bacterial whole genome data. J An Chemoth, 2016, 71(9): 2484-2488.

Hunt M, Mather AE, Sánchez-Busó L, et al. Ariba: Rapid Antimicrobial Resistance Genotyping Directly from Sequencing Reads. Microbial Genomics, 2017, 3(10): e000131.

Henson J, Tischler G, Ning Z. Next-generation sequencing and large genome assemblies. Pharmacogenomics, 2012, 13(8): 901-915.

Gupta SK, Padmanabhan BR, Diene SM, et al. Arg-annot, a new bioinformatic tool to discover antibiotic resistance genes in bacterial genomes. An Ag Chemoth, 2014, 58(1): 212-220.

Jia B, Raphenya AR, Alcock B, et al. Card 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database. Nucl Aci Re, 2016, 45(D1): D566-D573.

Moran RA, Anantham S, Holt KE, et al. Prediction of antibiotic resistance from antibiotic resistance genes detected in antibiotic-resistant commensal escherichia coli using pcr or wgs. J Ant Chemoth, 2017, 72(3): 700-704.

Feldgarden M, Brover V, Haft DH, et al. Validating the amrfinder tool and resistance gene database by using antimicrobial resistance genotype-phenotype correlations in a collection of isolates. Ant Agen Chemoth, 2019, 63(11): e00483-19.

Arango-Argoty G, Garner E, Pruden A, et al. Deeparg: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome, 2018, 6(1): 1-15.

Kouchaki S, Yang Y, Walker TM, et al. Application of machine learning techniques to tuberculosis drug resistance analysis. Bioinformatics, 2019, 35(13): 2276-2282.

Nguyen M, Long SW, Mcdermott PF, et al. Using machine learning to predict antimicrobial mics and associated genomic features for nontyphoidal salmonella. J Clin microbiol, 2019, 57(2): e01260-18.

杨超, 杨瑞馥, 崔玉军. 细菌全基因组关联研究的方法与应用. 遗传, 2018, 40(01): 57-65.

Kong Y, Li C, Chen H, et al. In Vivo emergence of colistin resistance in carbapenem-resistant klebsiella pneumoniae mediated by premature termination of the mgrb gene regulator. Front microbiol, 2021, 12: 656610.