基因组学软件Samtools的重要升级将支持全球数据共享

生物通 4144 2014-08-19

    基因组数据量的快速上升,意味着基因组科学家们需要快速而有效的方法,来共享、分析和存储序列信息。最近,惠康基金会桑格研究所的计算机科学家们,公布了一个最流行的新一代序列分析工具——Samtools的重要升级,修订后的Samtools 1.0支持高效能的CRAM格式,使研究人员能够很容易地压缩和共享他们的数据,降低成本并促进世界范围内的合作。

    基因组学与健康全球联盟(其中桑格研究所是一个合作伙伴)已经设立,使研究人员和临床医生能够共同使用标准化和高效的DNA序列数据格式,来寻找疾病相关的遗传变异。除了以现有SAM和BAM文件格式存在的基因组序列信息之外,Samtools 1.0还可让研究人员以新的CRAM格式读取数据——最近被全球联盟采纳的数据格式。

    利用CRAM的好处立竿见影:它提供10%到30%的减缩尺寸。此外,以类似于图像JPEG格式的方式,CRAM支持更大的压缩——多达100倍,“有损”模式保留了几乎所有的重要信息。

    桑格研究所计算基因组学带头人Richard Durbin博士指出:“Samtools的这一重大改造,反映了我们支持序列数据全球使用的承诺。全世界的基因组科学,依赖快速有效的数据分析和存储,Samtools 1.0通过支持新的测序和分析工具,能满足这一需要。”

    Samtools软件嵌入到许多生物信息学平台中,是成千上万基因组研究论文的基础。自2009年该程序产生以来,已被下载超过225,000次。这个新版本被充分地改写,以支持高效的基因组数据格式CRAM,添加了新的功能,并与其他工具整合的更干净。

    桑格研究所的John Marshall博士指出:“Samtools 1.0将CRAM嵌入到基因组数据分析平台,并免去了额外处理的必要。这一发展,为这种高效的文件格式在基因组研究中的广泛使用,开辟了新的途径,并将带来更低的存储成本。”

    之所以能够实现存储的明显减少,是因为桑格研究所和欧洲生物信息学研究所(EMBL)共同开发的合并数据压缩技术。

    桑格研究所的James Bonfield称:“将CRAM融入到Samtools中,真的很令人兴奋。CRAM极大的灵活性,将允许一些新的压缩技术被合并,当其与Samtools 1.0结合时,将有助于永不过时的基因组数据存储和分析。”

    Samtools 1.0可供使用的网址:http://www.htslib.org/

反对 0 收藏 0 评论 0