三代测序及癌症临床诊断之应用

作者:邱创泛、李钟熙
2021-12-16

邱创泛博士为体学生物科技(Personal Genomics,Inc.)技术长。体学生技、奎克生技(QuarkBio,Inc.)及华联生技(Phalanx Biotech)创办人。曾任台湾工业技术研究院千美元基因组技术开发计划(1000G project)计划主持人,生物医学中心企划推广组组长。拥有单分子定序、生物芯片、生物反应系统等领域之有效专利百件以上。清华大学化工硕士、美国普渡大学工程博士。


摘要:本文回顾几项促成基因测序技术突破的大型计划,讨论测序让我们看到癌变在分子层次的异质多样态,并分析三代测序技术的潜力。为提升癌症治疗效果,将每个癌症案例皆视为特例,藉由测序找出该病患癌变之地址与样态,并由计算机演算比对数据库中最接近的历史案例,提出最佳的治疗策略,这将成为癌症精准医疗的标准作业。未来测序技术在临床应用的发展上,将朝向与样本制备整合、便捷、低成本、适合在临床诊间实时使用的分布式测序。


[Abstract] This article reviews several large-scale projects that have led to breakthroughs in gene sequencing technology, and discusses how sequencing allows us to look into the heterogeneous states of cancer at the molecular level. The potential of the third-generation sequencing technology is also examined. In order to improve the effectiveness of cancer treatment, each cancer case is treated individually. Using sequencing, the mutations in the cancer patient can be identified and, through algorithms, matched with the most similar historical case in the database, thus providing an optimal treatment strategy. This will become a routine practice for precision medicine in cancer treatment. The next step for sequencing will focus on integrating the sample preparation with sequencing workflows, simple, fast and cost-effective, allowing decentralized sequencing at the point of clinical care.


前言

1953年Watson, J. D.与 Crick, F. H. C. 两人联合在Nature发表“A structure for deoxyribose nucleic acid”,阐述DNA双螺旋结构,并推测DNA就是生物遗传特性仰赖的载体,正式开启基因组学大门[1]。随后因序列测序技术的发展,累积大量的基因信息,让我们了解DNA携带的信息是一组严谨的程序代码及程序维持生命体运作所需要的所有数据。本文概述基因测序的发展历程,藉此讨论基因测序应用于癌症诊断与治疗的情境。


测序技术发展

2017年Nature杂志刊载“脱氧核糖核酸测序四十年:过往,现况及展望(DNA sequencing at 40:past,present and future)”一文,汇整核酸测序技术发展的重要历程[2]。该文将测序方法分成三代,第一代俗称桑格法(Sanger Method)以其发明人Frederick Sanger命名;第二代巨量平行测序法(Massively parallel sequencing),俗称第二代测序法(Next Generation Sequencing,NGS);第三代单分子实时测序法(Real time,Single Molecule Sequencing),简称为单分子测序法。


HGP带动第一代测序技术

1990年正式展开的国际人类基因组计划(Human Genome Project,HGP)贡献巨大。当初提出此HGP计划时,生命科学的重点是蛋白质相关的研究,核酸只不过是记载蛋白质的氨基酸序列。蛋白质主导外显的生化作用。所以学术研究、药物开发、医学探讨的主力都集中在蛋白质。蛋白质是显学。HGP要把这么多研究资源投入功能不清的核酸,引起颇多争议。此外,若以当时最先进的测序技术来推估,要完成这项计划那可是要庞大的经费与数十年的时间,势必排挤其他领域的研究经费,所以遭受主流科学家的非议与反对。


为此HGP将计划分成两个阶段,第一个阶段目标是改进测序技术,设定将其速度至少提升百倍,成本降低百倍。技术提升后,再采用新的技术大规模展开基因组测序工作。HGP计划促成桑格测序仪的全自动化,让测序实验室俨然成为标准化管理的信息生产工厂。


HGP原定以十五年时间完成,但是1998年成立一家塞雷拉基因组公司(Celera Genomics)提出以霰弹枪定序法(Shotgun sequencing,又称鸟枪法)简化制作测序样品库的流程,该公司宣称由于采用新方法,所以可以比HGP团队早半年至一年得到基因组序列,在这独家领先的一段时间,该公司科学家有机会先窥视基因组中存在的奥秘,并将有价值的部份申请专利。以此为由,该公司从市场募集3亿美元。受到塞雷拉基因组公司的影响,国际基因组计划团队也改变测序策略,添购新仪器、采用新方法,两个团队的竞赛,让计划提早在2001年在自然(Nature)和科学(Science)两个期刊上同步发布人类基因组工作草图[3,4],并在2003年宣布计划完成,比预定时间提早三年。


现在回头看,不要说提早个半年得到基因组信息,就是给你十年,仅凭一组基因组信息,是看不出端倪的。HGP计划主要的贡献是让大家相信全基因组测序再也不是遥不可及的高山了。但是要解出基因组的奥秘,需要更多的基因组才能奏效。


一千美元基因组计划

在HGP完成后,美国的国家人类基因组研究院(The National Human Genome Research Institute)推出一个新的千美元基因组计划($1000 Genome),希望在十年内,将基因组测序的价格降低到一般民众可以负担的$1000美元以下。该补助计划分成两个子项目,第一个子项目是五年内将基因组测序成本,降低至$100,000美元(当时估计测序一个人类基因组约需一千万美元),让学术机构得以展开大规模基因组相关基础研究。第二个子项就是十年内将测序成本降低至$1000美元,期望基因测序能普遍应用于医疗农牧环保等领域。


这个补助计划真正的补助规模并不大,以计划高峰期2009年为例,当年补助16个研发团队,总经费为四千八百万美元。但是这计划揭示了一个愿景,就是当基因测序价格降低时,可以被广泛应用到各个领域,包括疾病的临床诊断。这样一个愿景成功地带动了民间资金投入到此领域。2014年3月自然期刊一篇短文“Technology:The $1,000 genome”报导这个计划对于基因测序进步的关键推动角色[5]


二代测序技术的崛起

$1000美元一个基因组的目标确切地在哪一年达到很难界定,原因是至今为止要完整无误的将基因组一码不差的读取出来,在技术上与成本上仍是有困难的。基因测序,并不是像我们从CD盘片中将数字数据读出来转到硬盘之中那般的快速与正确。在电子数字信息的领域,数据的纪录与转移,虽然设备品牌五花八门,但是我们从不担心A牌的读碟机与B牌读碟机对于相同的数据会读出不同的结果。


基因测序却不然。同样从核酸分子把四个碱基序列读出,使用第一代、第二代、第三代,甚至在同属第二代,但是由不同公司开发出来的测序仪,读出来的结果是有差异的。这个差异来自不同世代的测序仪使用的基底原理是不同的,这些原理在先天上的限制,让不同世代测序仪在片段读取长度、碱基的正确率、碱基读取错误的模式(漏读deletion、插入insertion、误判substitution)的发生机率、富含GC区段的跨越能力等等,各不相同。


以读取长度为例,第一代测序技术依赖电泳来解析聚合酶链锁反应(polymerase chain reaction,PCR)产生标示有荧光、长短不一的核酸片段,从电泳分离产生的荧光图谱来判断ATCG的顺序。受限于电泳的解析能力,这方法读取长度极限约略就是1,000b。第二代测序技术,以将要读取的核酸片段为模板,经由扩增反应复制出数千个核酸分子复印件构成的聚集(cluster),再以聚合酶每次添加一个碱基后,就中止反应,用荧光扫描鉴别此次添加的碱基种类。所以是以一个碱基、一个碱基,逐步读取核酸的序列。


第二代技术过人之处在于每一个测序试片可以平行读取上千万、上亿股核酸片段,所以尽管每次读取需要一分钟以上,但是在一分钟内上亿股核酸样本都读出一个碱基,整体效率非常高。第二代测序2006年推出时,每个核酸片段平均仅能读取15 b,因为一开始时,复印件构成的聚集中所有的分子都同步添加一个碱基、中止反应、读取荧光、去除标示荧光物。


但是化学反应总是很难百分之百完成。假设聚集中有1000个分子,每次有10个脱队,到第68循环时,就有50%的分子是不同步调了。荧光讯号早就无法正确判读了。所以第二代的技术,经过十几年的改进,从最初仅能读取15 b的状态,提升到可以读到250 b,技术上也就到顶了,实用上二代测序平均读长能维持在150 b,正确率可以达到99.9%。


三代测序技术的特色

第三代测序技术直接以聚合酶复制单一个核酸分子,藉由每次添加碱基时,短暂驻留的荧光讯号来判定这次添加的碱基类别。由于每一个碱基的读取都是一个独立事件(二代技术中,上个碱基读取时,若有一些扩增分子反应落后,就会累积错误影响接续的读取),分辨率与正确率不会随测序长度增加而降低,所以测序长度平均可达10kb,最长甚至高达100kb。人类基因体中有所谓的结构性多形性(structural variants,SV),对于解译基因体突变在外显表现非常重要[6]


早期由于第一代与第二代测序技术,测序长度都太短,所以看到基因组之间的差异主要是单一核酸多态性(single nucleotide polymorphism,SNP),第三代技术让我们了解到基因组中存在许多SV其影响可能会比SNP来的大且广,这是第三代技术的重要之处。而由于三代测序不需先进行增幅反应,也可避免由于增幅对高GC区域所产生的偏差。此外,由于单分子测序多为连续式实时测序(real-time sequencing),其测序速度可以比二代逐步式(stepwise)的测序大幅加快,只是由于单分子样本制备等复杂性,目前市面上的三代测序技术尚难以展现速度快的优点。


但是第三代技术由于讯号仅仅来自一个荧光分子几十毫秒的短暂讯号,这对于光学检测是极大挑战,导致于三代技术直接读取碱基的正确率初期时仅有86%。必须对同一个核酸片段重复多次读取,然后综合数次读取的结果,推导出共识序列(consensus read),提高其测序正确率。这会增加操作上的复杂度。此外精密的光学组件,所能覆盖的面积有限,限制了第三代技术单机批次的信息产出量远不及二代技术。


测序成本与测序质量及完整性

所以在现实上,测序一个基因组是不是低于$1,000美元,答案取决于对基因组“完整正确”的要求有多高?HGP对于测序有两种质量等级,“草图测序(draft sequence)”是指涵盖~90%以上的基因组,碱基的正确率在~99.9%的水平。而“完整测序(finished sequence)”,指涵盖95%以上的基因组,碱基正确率在~99.99%的水平。


现今$1,000美元(2018年)可以买到的大约是进阶版的草图测序(high level draft)。若要完整且正确无误的读取整个基因组,现时仍存在技术瓶颈且是高成本的事情。所以在实用上Whole Exome Sequencing(WES)亦即仅测序约占基因组1~2%的蛋白质编码区(protein coding regions)或是针对用户选择特定区域进行目标测序(Targeted sequencing)是学术研究与商业服务常用的策略。


基因测序对于健康医疗的影响

基因测序虽然在技术上仍有限制,但已经为医疗与健康管理注入许多新的思维,也产生具体的影响。2016年Eric Green在美国国家人类基因组研究院(National Human Genome Research Institute)的The Genomic Landscape circa报告中指出,目前已知约有7,427种单一基因引起的遗传疾病(monogenic diseases)或罕见疾病(rare diseases),在HGP启动之前(1990年)仅有61种知道其致病基因,但随着使用新的基因测序技术,短短几年间(2016年)就已经找出其中4,324种罕见疾病的致病基因。


在临床上每个癌症病患对于药物反应的差异极大,透过基因测序我们逐渐了解在同一个器官产生的癌症,其分子层次的致病机理有很大的差异,再加上病人基因组对于药物代谢上的速度与路径差异(药物基因体学pharmacogenomics),是用药有效性因人而异的主要原因。案例显示,在不同器官发生的癌症,若是其底层的分子机理是类似的,可以使用相同的药物来治疗,虽然案例不多,但是寓意深远。过去由病变组织作为分类依据,例如肺癌、肝癌等,现今大家已逐渐接受根据影响癌变的基因特质来分类,也就是所谓的癌症分子分类法(molecular taxonomy),这对于诊断与选择用药会很有帮助。


基因测序揭露每个个体的差异,让我们思考以临床统计为基础的药物开发与临床诊断是否适用在癌症的治疗上?现有的药物临床试验都是基于临床实验统计分析发展出来的。这些统计方法的基础假设都是受试者是性质接近的族群,对于药物会有类似的反应。所以样本如果数量够大,就能藉由统计方法判断药物是否有效。但是如果我们设定为同质的一个族群,实际上是由两个性质相异的两个子群构成时,这种统计方式就会导致错误的结论。


例如其中一个子群姑且称为子群A占85%,另一个子群B占15%,某种药物对A子群具有百分之百的效果,我们会得到药物对族群的85%有良好反应;反之,另一种药物对于B子群有百分之百的效果,我们会得出该药物对于测试族群仅有15%的有良好反应。在没有方法鉴别子群A与子群B的成员时,我们不知道实际上是错误的结论,B子群也仅能接受错误的治疗。癌症医疗的实际情况远远比上述简化的例子更为复杂。首先是从基因组的角度而言,深究下来,每个个体都是唯一的。也就是,真要区分子群的话,每一个样本都能独自划分成一个子群。


基因测序的进步,让我们可以把每个个案皆视为特例,从机制上去解析每个个案罹病的机制,进而选取适当的疗法。“异常有效研究计划(exceptional responders initiative)”,针对癌症化疗收集一些异常有效的案例,并对于该患者的正常基因组与癌变基因组深入研究[7]。所谓”异常有效”是指某种药物对于大部分的患者都没有效果,仅仅有极少数患者(低于10%的用药患者)展现非常好的效果。这是从另一个方向厘清药物的分子生物机理。


从宏观的角度,DNA是一种储存信息的载体,储存的是发展一个生物体的程序集,而生物体是这个程序集指挥之下构成的细胞体网络。DNA储存的信息本质上是类似计算机硬盘中储存的信息,其中包括指挥计算机的管理程序(operation system)、执行特殊任务的软件包程序、影音文件、文本文件等等。各种程序的运作有其严谨的语法与规则。影音文件与文本文件等数据文件,在硬盘中的型态虽然皆是一连串的0/1数字码,但是只要透过约定的转译规则(protocol),就可以展现出影音图像与文字。DNA储存的基因调控编码与蛋白质编码与计算机硬盘中储存信息是可以模拟的。也就是,如果了解DNA语法与规则的话,无须仰赖统计分析,就可以解析其运作的。就如同修复计算机一般,可以从其编码找出造成不正常运作的程序段落加以修复。


DNA储存的程序集在世世代代的复制传递中,发生了变化,这些变化就持续存在它的子代中延续,这造成了人类的族群的多型性。癌变是这些复制传递出差错的特殊案例,它的演化仅在一个世代内,且范围仅限于一个生物体内。但是细胞突变能衍生成癌症有其共通的逻辑,太严重的突变细胞会凋亡,无法留存成癌症;无关紧要的突变,无法导致细胞增生对生物整体没有影响。所以癌变的发生,虽然是许多随机事件的累积,但是因为生物体的运作有其共通之处,所以癌变也会有共通的大原则。例如总是会涉及基因编辑以及细胞增生凋亡有关的基因发生突变,也就是的癌变热区。


短期之内,我们还没能完全解译DNA的语法与规则,但是可以藉由搜集过往的癌症案例,建立患者突变样态与用药效果的大型数据库,来归纳癌变热区;而其伴随的庞大用药案例库就成为治疗后续患者的重要参考数据。


测序于癌症临床诊断之应用

理想的癌症临床基因测序仪是让医师可以像网络搜寻一样,把癌变组织内每个细胞携带的基因组当成网络上散落各处的文件数据,藉由指定几个关键热区(类似在网络上以关键词搜寻)让测序仪读出许多细胞中基因组的指定区域的基因序列,再藉由计算机数据库演算,列出突变的地址与样态,并且利用我们已经解译的DNA语法与规则推测这些突变可能产生的病征,让医师来和患者实际状况比较,在判定吻合之后,可以从数据库中,找到近似的案例参考,提出最适当的治疗策略,供医师考虑。


不过临床用的测序和大型基因组研究的测序有不同的使用情境,大型研究计划可以集中收集许多样本,一整批一起检测;但是临床诊断有时效性,因此最理想的是可以在临床诊间实时使用的分布式测序,而其操作的简易方便及低成本也十分重要。


另外,基因结构性的变化(SV)对基因调控影响重大,所以应用于癌症的测序仪长读序是绝对必要。而检验的结果最好能在二十四小时之内提供医师参考。目前第三代技术在测序长度方面已达到需求,但若能将测序前的样品前处理与测序仪紧密结合成一贯作业,让使用上更方便,能加速其普及化。


此外藉由二代测序能够平行进行超大量短片段测序的特性,开发出非侵入式产前检验(non-invasive prenatal testing,NIPT)成为测序仪重要的应用。由此衍生从血液中采集游离DNA(cell-free DNA),RNAs,micro-RNAs等等,分析其来源与测得频率,期望找到可作为癌症早期检出或预后追踪的新型检验生物标记,通称液态活检测序检验(Liquid biopsy sequencing),吸引了许多学术机构与公司相继投入开发。此一努力目前虽尚在早期,未来若能证实其足够可靠性及实用性,便能应用在癌症的预后追踪及早期诊断。


结  论

总之,随着我们对于基因组的信息了解越多,基因测序在临床上的应用越趋重要。藉由测序结果,我们对于癌症在分子生物层次的机理有更深的理解。利用测序技术在临床上找出癌变基因的地址与样态,然后藉由计算机演算,从数据库比对找到最接近的案例,提供最佳的用药治疗策略,可能成为癌症诊断治疗的常态程序。未来的测序技术发展将朝向与样本制备整合、便捷、低成本、适合在临床诊间实时使用的分布式测序,让使用者可以容易读取指定的基因区域,并迅速获得正确的诊断信息。


Reference

[1] Watson, J. D., & Crick, F. H. C. A structure for deoxyribose nucleic acid. Nature 171, 737-738 (1953)

[2] Shendure, J., Balasubramanian, S., Church, G. M., Gilbert, W., Rogers, J., Schloss, J. A., & Waterston, R. H. (2017). DNA sequencing at 40: past, present and future. Nature, 550(7676), 345-353.

[3] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature. 2001, 409: 860-921.

[4] Venter, JC et.al., The sequence of the human genome. Science. 2001, 291: 1304-1351. 

[5] E. C. Hayden, Technology: The $1,000 genome, Nature 507, 294-295 (20 March 2014)

[6] Geo` rgia Escaramı´s, Elisa Docampo and Raquel Rabionet, A decade of structural variants: description, history and methods to detect structural variation, Briefings in Functional Genomics, 14(5), 2015, 305-314

[7] https://www.cancer.gov/about-cancer/treatment/research/exceptional-responders-initiative-qa.