遗传性恶性肿瘤伴随诊断中 的生物信息分析

作者:曹彦东
2021-12-16

实验室诊断技术导航_副本.jpg

作者:曹彦东

单位:北京安智因生物技术有限公司

在恶性肿瘤发病中,绝大多数肿瘤是环境与遗传因素相互作用的结果。人的个体遗传因素在恶性肿瘤的发生和发展过程中起着重要作用,全部肿瘤患者中遗传性肿瘤占比约为5~10%。尤其以常染色体显性方式遗传的抑癌基因,一旦发生致病变异,承担等效“二次打击”的可能性增加,相应罹患某一遗传性肿瘤综合征的可能性增加。而大部分人的遗传易感基因遗传自父母,也有少数不是来源于父母的个体新发突变。在常染色体显性遗传方式下,若父母有一方携带有致病的肿瘤易感基因改变,则他们下一代会有50%的概率从父母处获得这个缺陷基因。目前已经发现遗传性肿瘤包括遗传性乳腺癌、卵巢癌、胃癌、直肠癌、脑垂体肿瘤、肾癌、视网膜母细胞瘤、胰腺癌、子宫内膜癌、遗传性平滑肌瘤、胆管癌、神经纤维瘤、黑色素瘤、前列腺癌、淋巴瘤、多发性内分泌瘤、白血病等。


一、遗传性恶性肿瘤的基本特点 

1. 两个或两个以上的近亲出现相同或相关联的肿瘤。 

2. 具有1个或1个以上的亲属肿瘤发病年龄早于通常发病年龄。

3. 对称性器官的双侧肿瘤,如双侧乳腺癌、双侧肾癌。

4. 同一个人的多发性原发肿瘤。 

5. 某些良性改变如皮肤或骨骼异常、消化道息肉、粘膜黑斑等,一般与已知的遗传性肿瘤综合征相关。 

6. 罕见肿瘤,如男性乳腺癌。 


二、常见遗传性肿瘤的临床特征

1. 遗传性大肠癌:大部分结直肠癌呈散发,但约10~30%的结直肠癌患者具有家族聚集现象,大约有5%-6%的遗传性结直肠癌发病与多种遗传综合征直接相关。根据胃肠道内是否出现多发息肉,遗传性结直肠癌可分为两大主要类型:(1)遗传性息肉病性结直肠癌综合征;(2)遗传性非典型息肉病性结直肠癌综合征,该综合征也被称为林奇综合征(Lynch syndrome,LS)。 


2. 遗传性乳腺癌卵巢癌综合征(hereditary breast and ovarian cancer syndrome,HBOCS):该综合征约占遗传性乳腺癌病例的60%-75%。乳腺癌患者中约有2%-5%的肿瘤是因BRCA基因突变导致,卵巢癌中该比例更是高达10%-15%。HBOCS的女性患者其一生都有很高的乳腺癌和卵巢癌的发病风险,且对侧患乳腺癌的风险也要高于其他患者,如携带BRCA1基因突变的女性有51%-75%的风险患浆液性乳腺癌。同时,携带BRCA基因突变的男性其终身患癌风险也将增加,如携带BRCA2基因突变的男性患乳腺癌的风险为6%-7%。 


3. 李佛美尼综合征(Li-Fraumeni syndrome,LFS):该综合征患者患乳腺癌、软组织肉瘤、脑肿瘤以及肾上腺皮质癌等癌症的风险在30岁前约为50%,而到60岁就会高达90%,并且患者在童年和成年期女性的发病风险相对要高于男性。另外,该综合征再次患原发癌的风险也会增加,据估计有57%的LFS患者有可能罹患第二种癌症,以及38%的LFS患者有可能罹患第三种癌症。 


4. 黑斑息肉综合征(Peutz-Jeghers syndrome,PJS):该综合征与胃肠道息肉、独特的皮肤和粘膜病变(斑)有关。PJS患者一生约有85% 的风险罹患肿瘤,最常发生在胃肠道和生殖系统。PJS 患者患胃肠道恶性恶性肿瘤的危险性在57%左右,其中大肠癌的风险约为37%。另外,PJS女性患者60岁前罹患乳腺癌的风险可能高达31%,患卵巢癌、输卵管癌、子宫颈癌的风险也会增加;PJS男性患者罹患睾丸良性肿瘤、前列腺癌和乳腺癌的风险也很高。 


5. Cowden综合征(Cowden's syndrome):该综合征女性患者终生有25%-50%的乳腺癌发病风险和6%-10%的子宫内膜癌患病风险。该综合征男性和女性均有10%患甲状腺癌的风险,并且其患肾透明细胞癌、脂肪瘤和胃肠道错构瘤的风险较高。 


6. 遗传性弥漫性胃癌综合征(hereditary diffuse gastric cancer syndrome,HDGC):该综合征与CDH1突变有关,其中男性患弥漫性胃癌的风险约为67%,女性约为83%。该综合征平均发病年龄在38岁,且女性患者一生中大约有39%的风险患小叶乳腺癌。 


三、遗传性恶性肿瘤的筛查

对具有癌症家族史的高危人群应学会科学防癌,通过早期基因检测、定期检测等方法来积极地应对疾病。目前已有大量针对遗传性肿瘤易感基因的研究,尤其是一部分遗传性肿瘤的主要致病基因已经明确。采用NGS检测遗传性肿瘤,但对其生物信息分析过程中要考虑常见的一些问题。


1. 变异检测:不同的测序平台得到的数据,要分别选择相应的数据分析流程。WES(探针杂交捕获+illumine测序平台):比对环节使用软件BWA;变异检测使用软件GATK[1]。PANEL(多重引物PCR+ion torrent测序平台):比对环节使用软件TMAP;变异检测使用软件TVC。 


2. 注释分级[2]:主流变异注释软件有:VEP,SnpEff,ANNOVAR;变异的书写规则要参照HGVS。在遗传分子层面,个人之间的差异不超过0.5%。这些差异目前收录在群体遗传学数据库中,以及致病变异数据库中。结合疾病发病率,设置多态性位点的人群频率阈值。


3. NGS数据质控标准[3-4]:需要评估覆盖度、测序深度,考虑一代测序补齐和变异位点的一代测序验证。(1)测序深度(depth,x):指定范围内每个碱基的reads支持数目均值。该范围可以精确到一个变异位点,也可以扩大到完整目标区域,即平均测序深度。单基因遗传病生信分析要求WGS 30x,WES/PANEL 100x。(2)覆盖度(coverage, %):完整目标区域被覆盖的百分比。单基因遗传病一般考虑测序深度至少分别为4x/20x/50x/100x的覆盖度。(3)均一性(uniformity,%):完整目标区域范围内,每个目标片段(碱基、扩增子、外显子、人为划分单元)的测序深度已知,记为Di(i=1,2,3…N,N为所有目标片段)。统计Di的离散程度,为了方便样本之间的比较,目前均一性的主流统计方法是计算M/N*100%, M为Di≥D*20%的数目。(4)在靶率(on-target,%):比对到目标区域的reads数,占产生reads的百分比。影响在靶率的主要原因是样本污染、非特异性扩增、非特异性比对。(5)重复reads(duplicate):reads的某些属性(序列、比对起始位置等)相同即重复reads。扩增子测序必须跳过该环节。(6)单碱基质量预测值(base calling quality score):使用Phred-like质量值来评估测序错误率,通常表示为Q值。推荐使用该值作为某一型号测序仪稳定性的指标;或者衡量reads 3’端质量值下降快慢的指标。(7)比对质量值(mapping quality):read比对到基因组正确位置的可能性。一个panel稳定下来以后,所有reads比对质量值的分布基本是稳定的(主要取决于目标区域)。在此基础上,该分布如果出现变化,提示需要关注文库质量或测序质量的问题。(8)GC含量(GC content):reads每个碱基位置的GC含量的变化,可以直观反映index/barcode,adapter是否去除。而整体GC含量可以作为样本污染、文库质量低、均一性差的有力证据。


四、数据的储存与管理

1. 国际通用数据存储格式:fastq.gz, bam, g.vcf.gz,vcf.gz。

17.png

bam为比对结果,可以提取fastq.gz的clean data信息。建议只存储最终bam文件,去掉碱基质量值矫正、重复序列标注、插入缺失对齐、排序等中间结果文件。从比对环节开始,注意参考序列版本是否统一(目前流行版本hg19、hg38)。


g.vcf.gz/genome.vcf.gz是一种vcf文件,格式类似,但记录了完整目标区域内所有位点的突变情况,文件大小却只有bam的百分之一。极大提高了WGS/WES的队列联合分析效率和灵活性。在单基因遗传病研究领域备受推崇。


2. 样本数据追溯:fastq.gz,bam,g.vcf.gz,vcf.gz应该分别按照统一的目录结构分别存储,文件名称除后缀不同,其他应保持一致。bam,gvcf.gz,vcf.gz格式文件的头部都自动记录了使用软件、参数以及数据的版本或者来源。同时应该注意保存记录分析流程的脚本文件,以及分析过程中的日志文件。


五、数据的安全性与机密性

1. 存储路径管理:数据的保存文件路径以及文件内记录的编号应该避免直接使用样本名称命名。推荐使用数据库记录样本名称和数据存储路径的映射关系,并做好数据库的权限管理。


2. 硬件存储、备份管理:为了降低数据丢失风险,应选择具备自动备份功能的存储服务。如果有条件,数据库维护访问以及日志文件应该备份到不同存储服务,并且按用户指定的保留期进行存储。


3. 网络安全管理:不论局域网还是互联网,为了降低数据被复制风险,数据块的加密技术推荐使用256位高级加密标准。同时默认关闭所有端口,只开放个别访问端口;做好安全策略,执行安全管理。


六、性能验证/确认

遗传性恶性肿瘤生物信息学分析流程的性能确认,其主要目的是评估自建质量控制标准下的分析结果是否达到预期目的。具体到单基因遗传病的NGS临床检测,由于目标区域范围为若干基因的全编码区,考虑人类基因组复杂程度,尤其低复杂度、高GC含量、重复序列、同源序列,分别相对应的变异检测难度不同,所以选择足够有代表性的、数目相当的已知变异位点进行评估才有意义。不仅如此,在单基因遗传病基因检测的临床实践中,为了避免假阴性,应提示哪些目标区域需要一代测序补齐;为了避免假阳性,应给每个变异位点做可信评级(可信,警惕,不可信),使用一代测序验证预期[5]。


1. 精密度(precision):包括重复性和重现性。只有保证数据及分析流程的完整性,并排除随机抽样的影响,才可以保证精密度。


2. 准确度(accuracy):表示测量结果与真实结果之间的符合程度。性能验证过程中需要注意,已知阳性位点和阴性位点的数目相当,并覆盖变异检测难度不同的位点。


3. 分析敏感性,分析特异性,阳性预测值,阴性预测值。

18.png

准确度: (TP + TN) / (TP + TN + FP + FN);分析敏感性:TP / (TP + FN);分析特异性:TN / (TN + FP);阳性预测值:TP / (TP + FP);阴性预测值:TN / (TN + FN)


4. 检出限:阳性判断值(cut-off值),往往是评估变异位点质量的一组特征指标,包括:测序深度,突变比值,链偏倚性,以及是否处在序低复杂度、高GC含量、重复序列、同源序列等。挑选哪些指标入组,以及如何平衡各项指标阈值的权重,决定了分析敏感性、分析特异性的最佳表现;同时可以确定检出限,如:确定最低测序深度,最低突变比值等。已知分析敏感性和分析特异性是此消彼长的关系,即很难同时消除假阳性和假阴性。需要反复调试ROC曲线(receiver operating characteristic),以使曲线下的面积达到最大。


参考文献

  1. DePristo MA, Banks E, Poplin R, et al. A framework for variation discovery and genotying using next-generation DNA sequencing data. Nat Genet, 2011, 43: 491-498

  2. Sikkema-Raddatz B, Johansson LF, de Boer EN, et al. Targeted next-generation sequencing can replace Sanger sequencing in clinical diagnostics. Hum Mutat, 2013, 34: 1035-1042

  3. Bragg LM, Stone G, Butler MK, et al. Shining a light on dark sequencing: characterizing errors in Ion Torrent PGM data. LoS Comput Biol, 2013, 9: e1003031

  4. Guo Y, Ye F, Sheng Q, et al. Three-stage quality control strategies for DNA re-sequencing data. Brief Bioinform, 2014, 15: 879-889

  5. Mack SJ, Milius RP, Gifford BD, et al. Minimum information for reporting next generation sequence genotyping(MIRING):guidelines for reporting HLA and KIR genotying via next generation sequencing. Hum Immunol, 2015, 76: 954-962

杂志后跟_副本.png