“瓶中基因组”计划—研究实践检验Ion Torrent™测序仪准确度
在DNA测序仪制造中实现高保真性
在Ion Torrent™产品的开发过程中,赛默飞以建立可量化的核酸下一代测序试验为傲,目标很简单,就是准确测序每个碱基。我们每天的工作旨在制造可以对每个碱基进行测序并正确识别变异的工具。我们利用质控品——即序列已知的样品——来达成这个目标。最佳的质控品通常都经过了多种技术的测量。这种做法的原理是:在排除每种单独试验的系统误差后,几种不同测序试验对共有序列测序的结果将共同生成一个“正确答案”。简而言之,如果共有序列经过多种不同方法的测量,那么其综合结果便是可信的。
围绕“瓶中基因组”计划,美国国家标准技术研究所 (NIST) 制造了一批工具并以此提供至关重要的公共服务。如果将来确定测序结果与临床相关,那么DNA测序仪能够产生正确结果这一认知将增进研究人员对此结果的信任。
准确性取决于单次读取还是多次读取?
那么我们应该如何选择测量的切入点以确定是否获得了正确结果呢?测序仪准确度测量的常见做法是将仪器单次读取的结果与已知序列进行比对以获得其准确度。这可以实现每个碱基与“真值”的比较。然而在实际检测中所采用的做法是从海量的正常序列中找出基因序列变异。下一代测序仪并不只读取序列一次,而是很可能要读取上千次。每次读取的结果都需要对比参考序列来进行匹配或定位,而后不同于参考序列的位点(即变异)将被识别。在定位和变异识别过程中,非系统误差得以从数据中排除,从而产生最准确的变异检测结果。得益于NIST“瓶中基因组”真值集,赛默飞了解到一旦使用了匹配不当的变异识别参数,测序仪生成的数据可能比系统实际可生成的要差。这使我们进一步知道了整个过程所面临的重大挑战——将定位和突变识别过程与每台测序仪的特定误差模式进行匹配。在NIST进行的最初研究中,Ion Proton™测序仪数据通过基因组分析工具箱 (GATK) 变体识别通道生成的单核苷酸多态性 (SNP) 灵敏度只有42%。然而,当使用了升级版的数据集以及针对Ion Torrent™数据进行过优化的变异识别参数,SNP灵敏度直接激增至92%以上。
变异识别算法很重要
赛默飞投入了大量资源,专门为Ion Torrent™数据创建和优化变体识别通道。我们发现,在变异识别过程中,充分利用碱基流空间信息有助于清除许多假阳性结果,进而提供更准确的变异识别。赛默飞认为这是目前最好的算法。为让更多研究人员了解这一算法,赛默飞已经在GitHub的GPLv2开源许可协议下发布了该变异识别器的源代码。伴随Torrent Suite™ v4.2的新近发布,赛默飞对Torrent Variant Caller™ (TVC)进行了设计优化,使其在Torrent Suite™软件以外的平台上同样可以工作:现在它可以在最常见的Linux®环境中的命令行模式下运行,以支持采用了集群配置的系统。
对于Ion Torrent™数据,TVC是最好的变体识别器吗?
赛默飞认为Torrent Variant Caller™ (TVC) 是针对Ion Torrent数据™整体表现最好的变异识别器。同时我们也明白,科学的进步有赖于各自的同行对彼此工作的批判性审查。赛默飞欢迎同时运行TVC算法和GATK以及其他算法的相关团体给予各种反馈。
进一步了解Torrent Suite软件内置的TVC,请访问Ion Community。