宏基因组测序技术临床应用前景与发展方向

作者:王珺
作者单位:杭州杰毅生物技术有限公司 2023-11-07

王珺,分子生物学博士。杭州杰毅生物技术有限公司创始人和CEO,英国邓迪大学细胞分子生物学博士。2007年开始研究NGS技术,2010年作为创始团队成员创建贝瑞和康。在国内第一批推广NGS产品临床转化,2014年牵头研发注册NGS产品,获得国内第一个基于illumina平台的IVD试剂盒,以及illumina测序仪平台注册。2017年开始创业推广分子检测自动化,开发了SMAP基于基因编辑的流水线病原体检测仪,以及NGSmaster全自动病原体高通量测序文库构建系统。

病原宏基因组测序(mNGS)的特点是不需要培养,不需要前提假设,从临床样本中提取核酸,利用基因组学的方法研究样品中所有微生物的种类和含量。涵盖了细菌、病毒、真菌和寄生虫等各种可能性。不需要假设意味着不需要提前推测可能是什么样的病原体,从而再采取相应的检测方法检测,mNGS可以“一网兜”地检测出来。这样先进的技术过去几年在临床大量应用。同时临床也发现了许多问题,例如,序列数是否能够真实反映标本的病原载量?在有些标本中只能测到一条结核或军团菌或者测得1000条非结核分枝杆菌(NTM)。序列数多高就意味着样本当中含有这些病原体?序列数多低可以认为是背景?序列数是否与样本当中真实的病原载量相关?这些都是临床困惑的问题。

一、mNGS测序技术在病原体检测中的临床应用

在一件真实案例中(图1),在两份肺泡灌洗液中均测得耶氏肺孢子菌,其中样本1的序列数高:5239条,样本2的序列数低:1826条。单从序列数判断,样本1中耶氏肺孢子菌数更高,样本2更低,但给这两份样本做荧光定量检测后,结果却相反,样本2的耶氏肺孢子菌的病原CT值更低。由于CT值越低,病原菌的含量越高,因此我们不禁疑惑序列数能否真实表达样本中的病毒载量?

图1. 两份肺泡灌洗液中均测得耶氏肺孢子菌

2019年发表的《宏基因组分析和诊断技术在急重症感染应用的专家共识》中提到,Reads指的是匹配到该病原体的序列数目,其多少与标本中病原体本身载量负荷、核酸提取量、人源序列比例有关。2021年发表的《宏基因组高通量测序技术应用于感染性疾病病原检测中国专家共识》则认为:mNGS的局限之一是标本高背景导致检测灵敏度降低。高背景主要来自人类宿主(例如,组织活体标本)或微生物菌群(例如,呼吸道标本、粪便等)。对于这些患者的感染性标本,如果存在高背景,当测序深度不变时,会漏检致病病原。因此,对于高宿主背景的标本,须在提取的过程中去除宿主细胞或核酸。

在样本中蓝色图形代表人源细胞(图2),紫色图形代表病原细胞。mNGS测序后,会得到右侧的测序数据,大约有60%的人源序列和40%的病原序列。当样本中病原细胞的数量不发生变化,人源细胞增加时,mNGS测得的人源序列比例占比就会增加,测得的病原序列相应减少。当样本中的人源细胞极致增加,很可能就无法检测到病原序列,这种情况常出现在溶血或组织块冲洗下来时,此时人源细胞增多,病原含量难以检测到。

图2. 蓝色图形代表人源细胞,紫色图形代表病原细胞

mNGS不同于以往的分子诊断,以往的分子诊断可以提示每毫升若干拷贝的检测灵敏度。mNGS除了这点,还需增加人源比例,因为同样的体积,105和107的人源细胞时检测灵敏度完全不同,哪怕一样的数据量,甚至是更高数据量。人源核酸含量越高,mNGS敏感性越低,病原体检出序列数越小。

2019年底、2020年初,杰毅生物联合浙江大学邵逸夫医院和浙江大学第一医院合作了浙江的呼吸多中心研究,涵盖205份BALF标本。探索了如何做一个优质、有质控的mNGS,如何在人源波动非常大的情况下做好检测。简单描述是(图3),通过封闭式建库和PCR-free的建库系统,在每个样本中,加入已知含量的分子标尺,通过分子标尺在最后测序含量中的波动,从而推断样本中真实的人源和病原序列数含量。简言之加入已知量的核酸,通过核酸的波动,去计算这两个纬度中,样本的变化。mNGS检测灵敏度受标本人源含量影响非常大。去人源技术是双刃剑,不建议对所有样本无差别去人源。Q-mNGS可对标本中人源和病原体含量进行定量检测。结合选择性去人源,Q-mNGS BALF诊断阳性率达93.04%,诊断特异性达93.33%。

图3. 人源核酸检测描述

大数据显示(图4),X轴表示人源波动的范围,Y轴表示丰度,绿色图形为脑脊液标本,脑脊液有两个峰的人源波动,从X轴的最左端到最右端波动在105左右,意味着从临床收到的样本,由于各种原因人源波动基本在10000倍,低人源和高人源的丰度差别较大。红色图形为外周血样本,蓝色图形为肺泡灌洗液标本。由图可知,即使是肺泡灌洗液标本人源波动也基本在10000倍以上。

把人源序列数通过分子标尺定量后的参数命名为人源指数(Host index),用于计算标本的人源含量;对同一类型标本的人源指数进行统计,形成该类型标本的人源含量分布图;新检测标本的人源指数与同类型标本人源含量分布图比较,获得该标本在同类型标本中人源含量排位,排位越高,这说明该标本人源含量越高,mNGS对于病原体的检测敏感性越差。Q-mNGS在每份报告里都会提示临床这份标本在这种标本类型中,它的人源波动在哪个位置。所以这份有质控的mNGS,可以告诉临床它是否在检测范围之内,数据量是否足够,有无可能漏检,会不会产生假阴性。

图4. 大数据显示图

PCR-free不影响微生物序列数。微生物序列数受标本中微生物含量和人源细胞含量双重影响,这与标本人源细胞数量呈负相关。不论使用PCR扩增还是PCR-free。图5A中,线条从上往下分别是104、105、106、107、108的人源细胞,人源含量增加时,微生物序列数相应下降。同时病原体含量越来越低时,检出也越来越低。

图5. 线条从上往下分别是104、105、106、107、108的人源细胞

在《宏基因组高通量测序技术应用于感染性疾病病原检测中国专家共识》的共识19中提出,建议实验室的核酸提取流程、病原体核酸提取试剂盒应经过验证:高宿主背景标本提取时应采用经过验证的方法去除宿主细胞或核酸;整个提取过程必须有防污染措施,包括阴性对照和阳性对照等。

去人源(宿主)技术主要包括几种:提取前有细胞分离法和差异裂解法,提取后有磁珠法、杂交捕获法、CRISPR/Cas法,生信分析流程包括过滤宿主序列。但目前并没有一个非常明确的好的去除人源方法,因为在去人源的过程中有一些病原体会丢失,有些背景菌会增加,目前是一个挑战。

去人源技术是双刃剑,不建议对所有标本无差别适用。205份BALF标本数据统计显示:差异化裂解去人源会同时造成某些微生物序列数上升,某些微生物序列数下降,对细菌和分枝杆菌的富集作用较病毒和真菌更明显。94.79%的标本去人源前后的结果一致,但8例(8/205,3.90%)标本在常规mNGS检测时结果为阴性,而在去人源后mNGS检测结果为阳性,其中包括4例结核分枝杆菌、2例烟曲霉和2例白色念珠菌。去人源后造成损失的病原体主要为耶氏肺孢子菌(2例,RPM分别下降7695.87和8397.47)。有专家在今年的各种汇报中提到宿主DNA的去除降低了低微生物量样本的检出率。这种技术在使用时,去除人源的过程中也会把微生物去除掉。所以去人源技术是一把双刃剑,不去人源易造成高人源样本的漏检,无差别去人源将会造成背景微生物放大、丢失部分病原体。所以杰毅生物在做定量宏基因组检测时选择性去人源,即针对高人源样本进行去人源,正常人源样本正常检测,使得Q-mNGS诊断性能更优异。

此外,205份BALF样本数据统计显示:205例患者中有15例(7.32%)为非感染性疾病,190例为感染性疾病,其中115例(60.53%)临床诊断明确病原体。Q-mNGS的阳性率为93.04%(107/115),显著高于临床常规检测(细菌、真菌培养,G/GM/GXM试验,抗酸染色,Xpert等)的阳性率49.57%(57/115)。Q-mNGS共为123例患者做出明确诊断,其中64例患者为唯一诊断依据,显著多于常规检测(8例)。Q-mNGS明确非感染诊断14例(特异性93.3%,间接性肺炎6例,肺癌4例,心脏衰竭1例,过敏性肺炎1例,慢阻肺(COPD)1例和放射性肺炎1例)。呼吸道标本很容易能测得一些背景菌、定植菌,如何做出一个明确的非感染性报告是很有挑战的。通过有质控的方式,能真正地帮助临床,否则追求极致的灵敏度,提供一个并不准确的微生物反而会误导临床。

Q-mNGSTM包含分子标尺和大数据,Q有两个重要概念,一个是质控一个是定量。Q-mNGSTM(Quality/Quantity mNGS),定量宏基因组检测技术:下一代mNGS,实现了人源和病原体核酸的相对定量检测,实现真/假阴性的区分和治疗效果的监测。对每份样本提供人源指数,告诉临床是在检测范围内还是外。第二我们会提供一个病原指数,这个病原指数会更好地反应样本当中真实的含量,而并不是简单看序列数。结合人源指数,选择性对高人源样本去人源,将高人源样本阳性率提升近一倍。人源指数(Host index)和病原指数(Q index)多维度评判,真实还原病原体含量。杰毅一直在做自己的自动化和极致的分析速度,在全国范围内提供常规13小时极速交付mNGS的报告,比同类公司快半天,并且很多步骤都是自动化的。所以Q-mNGSTM是一个更快、更真、更准的技术。

回到文章初始的案例(图6),序列数能否反应样本当中的真实病原载量?在这两份样本中都测得了耶氏肺孢子菌,5239序列数的样本1 CT值反而比1826序列数的样本2 CT值高,说明样本1的真实耶氏肺孢子菌的病原含量比样本2低。Q-mNGS的峰形图提示样本1的Host index(人源指数)为27706.79,高于4.58%同类样品,样本2的Host index(人源指数)是30659.29,高于35.67%同类样品。所以样本1是低人源样本,样本2是高人源样本。因为低序列数的样本人源含量更高(Actin CT更低),导致耶氏肺孢子菌的序列数被低估。

图6. 病原序列数和人源背景

每一种样本类型,每一种病原体都会有一种独立的大数据。在肺泡灌洗液的耶氏肺孢子菌中,样本1的原始序列数是5239条,样本2的病原序列数是1829条,通过加入分子标尺的内参技术,校正后,样本1的Q index(校正人源背景后该微生物的含量)是15789.48,高于70.78%的同类样本。样本2的Q index(校正人源背景后该微生物的含量)是18143.47,高于82.31%的同类样本(图7)。所以Q值更接近样本中病原体的含量,我们也在不断提高,使得Q值越来越接近真实的拷贝数。所以序列数不能反应真实的样本中病原体的含量,Q值可以更好的反应病原体的含量。样本1的病原序列数高,反而CT值也高,而样本2的病原指数更高,原因是样本2的人源指数高(图8)。

图7. 校正人源背景后该微生物的含量

图8. 人源指数和病原指数

通过十万份标本大数据获得人源和病毒含量分布图。把病原序列数通过分子标尺定量后的参数命名为病原指数(Q index),用于计算标本中该病原体含量;对同一类型标本的同一病原体的病原指数进行统计,形成该类型标本中该病原体的病原含量分布图;新检测标本的病原指数与同类型标本同种病原的病原含量分布图相比,获得该标本在同类型标本中病原含量排位,排位越高,说明该病原含量越高。

如图9这两个结核样本一个是27条序列数,一个是30条序列数,很接近。但是Q index显示左侧样本是3713.13,右侧样本是15448.15。虽然右侧样本的序列数只比左侧样本多了3条,但右侧样本的病原体含量实际非常高,原因是右侧样本人源指数高,是22195.88,而左侧样本为15448.15,这说明右侧样本在测量时由于人源细胞多,测得的病原细胞少,所以实际上的病原细胞多。所以Q指数可以更好的反应样本当中的真实含量。也可以针对同样类型的样本,不同的病原进行横向比较。

图9. 两个结核样本序列数

图10、图11是一份三次脑脊液的Q-mNGSTM检测。体温显示出从高到低,再到高的波折过程。人源波动显示,在7月14日、7月21日、7月28日的人源指数分别为23007.80、22282.50、25832.99,从86.92%到80.66%到97.27%,与体温波动曲线相似。而这三次检测的病原序列数分别为:985、617、157,单从序列数判断,可能会认为治疗效果很好,但当考虑Q指数时,Q指数的波动与体温和人源指数一致。Q指数真实反应出病原体含量及其变化,序列数受到人源核酸影响,与患者病程进展不符。如果用序列数的变化作连续监控,并不准确,原因是感染发展非常复杂,在各种状态下,在外周血、脑脊液、肺泡灌洗液等状态下,人源波动非常复杂。目前充分的证据显示,感染越重时,外周血中游离DNA的含量越高,所以单纯从序列数来看,不足以监测病原体、进行病程监控,所以检测时不仅需要测病原体,还需要检测人源。

图10. 脑脊液的Q-mNGSTM检测

图11. 三次脑脊液的Q-mNGSTM检测

在这个项目中推出的Q-mNGS有几个优点:一次定量,二个指数,三大优势。它可以鉴别真/假阴性,排查患者是否感染,低人源标本检测特异性达91%。选择性去人源,高人源标本检出率提升一倍,从24.78%升至46.27%。它体现了真实的病原载量协助临床病程管理。

二、mNGS技术病原体检测案例分析

1. 外周血标本:2020年年初,一名怀疑是胸椎结核的病人,他的各种检测包括病理、影像都疑似是胸椎的结核病变,但在外周血中mNGS没有检测到结核的任何病原体。当时该病人的染色体波动很大,疑似肿瘤患者,跟临床沟通后,做了穿刺,该病例最终被确诊为弥漫性大B细胞淋巴瘤,转移到胸椎。患者的诊疗过程复杂,起初有胸痛的症状,两次活检都疑似结核,由于中间的诊疗过程中有一个春节,所以患者带着抗感染的药物出院。由于疫情,再次入院另一家医院活检确认是弥漫性大B淋巴瘤。从此就不再抗感染治疗开始做化疗。

以往对于疑似感染的病人,当由于各种原因不能找到明确的病原体时,临床会尝试各种各样的治疗方案,经过一个漫长的治疗无效,才会往肿瘤的方向考虑。但mNGS可以快速看到肿瘤表现,而不是感染性患者。所以这是mNGS未来的一个发展方向。随着化疗,该病人mNGS测序的CNV峰型波动越来越窄,化疗杀死了很多肿瘤细胞,所以能测得的染色体异常细胞越来越少。

2. 肺泡灌洗液标本:患者林某,女性,62岁。主诉“咳嗽,咳痰,咯血1月余,发热3周”。患者1月前无明显诱因出现咳嗽咳痰,痰少色黄无恶臭,夹血丝,无呼吸困难等,就诊当地市医院,胸部CT“右下肺脓肿”,血常规“WBC 19.83×109/L”,GR 85%”,CRP 108.3mg/L,PCT 0.056ng/ml,予“哌拉西林、左氧氟沙星”抗感染,3周前出现发热,最高体温40℃,热峰未退。后转诊福州两家三甲医院呼吸科、肿瘤科门诊,均考虑“热脓肿”先后予“莫西沙星、头孢噻肟”抗感染,热峰未退。2020.7.20转至福建某三甲医院呼吸科。(1)感染指标:WBC 30.64×109/L↑;GR#:25.94×109/L↑;GR86.1%↑;CRP 72.67mg/L↑;PCT:2.25ug/L↑;G试验、GM试验阴性;TB抗体阴性;新冠病毒核酸阴性;术前四项阴性。(2)生化全套、BNP正常;凝血:D-D 0.74mg/L。(3)肿瘤标志物:CEA 8.68ng/ml↑,SCC 3.10ng/ml↑,CYFRA21_1 6.37ng/ml↑。(4)影像学资料:全腹CT,肝内胆管小结石,肝囊肿,余未见明显异常。心彩超:室间隔及左室前壁增厚,左室舒张功能减弱。胸部彩超造影:右肺下叶混合回声团块-考虑病灶内部含气体液化坏死区,脓肿可能。胸部CT:右肺下叶可见高密度肿块,大小约5.5cm×8.69cm,病灶内见多发空洞,并可见气液平面,空洞周围边界模糊,可见不规则磨玻璃样阴影。右肺下叶包裹积液、积气,考虑脓肿。(5)气管镜:主气管通畅,未见分泌物,左、右主支气管及各叶段支气管腔内未见新生物、异物、出血,右下叶背段支气管腔内可见少量白粘痰。(6)微生物学:① 痰真菌培养及鉴定:念珠菌属+(7.24);② 痰真菌培养及鉴定:分离到口咽部正常菌群(7.24);③ 肺泡灌洗液细菌培养及鉴定:无细菌生长(7.25);④ 肺泡灌洗液真菌培养及鉴定:曲霉菌1cfu,考虑腐生菌(7.25);⑤ 血液细菌培养及鉴定:经6天培养无细菌生长(7.27);⑥ 血液真菌培养及鉴定:经6天培养无真菌生长(7.27);⑦ 脓汁(闭合型)细菌培养及鉴定(肺肿物穿刺液):无细菌生长(7.30)热峰也很高,最高有40℃以上,所以从影像等各方面检查均认为是肺脓肿,但抗感染治疗一直效果不好。

肺泡灌洗液样本检测mNGS未检测到病原体,人源背景32958.30,高于68.10%的同类标本。但该患者染色体波动大,多染色体拷贝数出现异常,提示肺泡灌洗液中存在大量肿瘤核酸,可能有肿瘤性疾病。与临床沟通后,临床在7.24日彩超引导下行肺肿物穿刺术。穿刺液为血性液体,共20ml,无臭味。右肺脓肿穿刺液液基薄层细胞学见恶性肿瘤细胞,右肺下叶穿刺活检标本,结合免疫组化考虑肺鳞癌。

3. 脑脊液样本:患者52岁,女性。家属代述,患者在自行购买中药(具体成分不详)服用后逐渐出现恶心、呕吐症状,伴后枕部疼痛,偶有咳嗽、咳痰,无发热、无腹痛腹泻。当地诊所输液无改善,考虑情绪问题入合肥四院就诊予口服药物(具体不详),症状无改善。后就诊于肥西县医院,期间查肿瘤标志物偏高,胸部CT提示右中叶占位,至安徽省立医院呼吸科门诊就诊完善气管镜检测所取组织病理未提示肿瘤依据。后至合肥四院就诊考虑焦虑障碍,予米氮平、舒比利、奥美拉唑等改善情绪、抑酸护胃等对症治疗,恶心、呕吐症状逐渐好转。下午3时许,患者突然出现呼之不应、双眼上翻、牙关紧闭、双手不停互相揉搓、口吐白沫、大小便失禁等症状,予吸氧处理,数十分钟后上述症状消失,但意识不清、胡言乱语,考虑癫痫发作,期间再次发作上述症状1次,为求进一步诊治拟“症状性癫痫”收住安徽某三甲医院神经内科。初步诊断:(1)假性癫痫发作;(2)晕厥;(3)发作性睡病;(4)低血糖症;(5)器质性疾病。

神经系统的肿瘤或占位性病变容易通过影像判断,但当患者罹患脑膜癌时,患者会出现颅内高压,高白细胞,非常像感染状态,当影像学一时不能找到肿瘤的占位性病变时,临床可能还是会按照感染的方向去治疗。mNGS未检测到疑似病原体,CNV分析结果提示脑脊液中存在大量肿瘤细胞核酸,结合其他证据,临床高度怀疑“肺部肿瘤的脑膜转移”。

所以在肺泡灌洗液、脑脊液、血液当中,不应该无差别去人源,因为这些人源序列非常重要。很多疑似感染的患者,他们很可能不是一个病原菌的感染,而是肿瘤性疾病。

三、mNGS检测技术发展方向

疑似感染的原因包括感染和非感染,感染包括常见感染和不常见感染,非感染因素包括肿瘤和自免等。肿瘤性发热占发热待查(FUO)患者的发热原因的百分之十几。全部无差别去人源会提高背景,同时解读也会困难,病原体丢失。如果全部无差别去人源,在每次常规mNGS分析中,我们都只会关心0.0001%-2%的微生物序列数,从来不去关心人的序列数是什么样的,但人的序列其实是一个非常重要的宝库。正常人有23对染色体,每一对染色体一条来自父亲,一条来自母亲。如果是肿瘤性发热患者,肿瘤的染色体变化很大,有些染色体有多条或一条,有些染色体形态改变不规则,甚至发生染色体的融合。染色体不稳定是恶性肿瘤的重要特征,这也是造成肿瘤异质性重要原因。

做血流mNGS的正常流程包括,核酸提取,建文库,寻找mNGS结果。同时需要生物学分析丢掉的序列有无肿瘤的可能性。正常人的染色体通常在二倍体的水平上,出现XY提示为男性,X染色体一条,Y染色体一条。如果是女性,染色体均为双倍体。而肿瘤患者的染色体波动非常大(图12)。杰毅生物在过去两年做了几万份样本和标志物,并且开发了AI引擎,还与北京大学人民医院检验科主任王辉教授就AI引擎发表了一篇文章,讲述怎样用这个技术去区分140例肺部穿刺液当中哪些是肿瘤哪些是感染。同时一些不太显著的波形AI也能识别出来。

图12. 肿瘤患者的染色体

四、mNGS技术发展前景

mNGS未来众多方向之一是mNGS+CNV联合分析,其意义在于可以适用于mNGS所有样本类型。它方向性地提示临床早诊;在没有增加太多患者负担情况下,提供了新维度的结果;这有助于防止抗生素滥用。肿瘤分析比较复杂,杰毅生物开发OncoAI分析引擎,准确率大大提升,需要消减遗传背景,分析挑战大。mNGS在临床的发展过去几年得到了临床广泛的认可,序列数不能反应样本的真实病原含量。同时每次检测的数据不应只关注0.001%到2%的序列数,更应该关注被去除的人源序列,还有海量的大量的人源序列可以给我们提供更好的临床诊疗方向。