[发明专利]FASTQ格式文件无损压缩的方法在审

专利信息
申请号: 201710761520.8 申请日: 2017-08-30
公开(公告)号: CN107565975A 公开(公告)日: 2018-01-09
发明(设计)人: 袁晓辉 申请(专利权)人: 武汉古奥基因科技有限公司
主分类号: H03M7/46 分类号: H03M7/46
代理公司: 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 代理人: 常海涛
地址: 430000 湖北省武汉市*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: fastq 格式文件 无损 压缩 方法
【说明书】:

技术领域

本发明属于生物信息领域,涉及一种DNA测序数据的标准存储方式FASTQ格式文件无损压缩的方法。

背景技术

由于DNA数据与一般的文本、图像、视频等格式不同,它只包含四种碱基符号{A,G,C,T}。若将其看成随机字符串,则每个碱基符号需要2bits(log2 4)。故对DNA数据进行压缩,每个碱基需少于2bits存储才能达到有效的压缩结果。传统的压缩算法如gzip、bzip2、7-Zip等虽然可以用来压缩测序数据,但是其每个碱基的存储空间大于2bits。因此,研究人员致力于专用于DNA数据的压缩算法的研究。

2010年Tembe等人提出的基因组序列和质量数据的紧凑编码G-SQZ(Genomic SQueeZ),是一种基于霍夫曼编码的排序读取特定表示方案,可以在不改变相对顺序的情况下压缩数据。它在组合碱基和各自的质量上使用零级霍夫曼编码,无法处理具有可变长度读数的数据集。

2011年Deorowicz等人提出的算法,其C++实现为DSRC(DNA Sequence Reads Compressor),兼容分别由Sange和加利福尼亚大学综合基因组生物学研究所提供的两种标准化格式的FASTQ格式。该算法处理DNA读数而不是基因组序列,它将FASTQ格式识别为有序的记录集合,并对记录进行数据流(分别为标题、DNA序列和质量评分)独立处理。其压缩效率和性能明显优于处理相同数据格式的G-SQZ算法。

2012年,Jones等人提出了Quip算法,基于统计模型,使用算术编码,可以对FASTQ和SAM/BAM格式的下一代测序数据进行无损压缩。对于FASTQ的不同行,使用不同的统计模型,这样就能取得更高的压缩比。尽管有这些优点,但是实际应用中却由于算术编码的专利权的限制,没有霍夫曼算法使用广泛。

Roguski于2014年提出面向工业的解决方案DSRC2,其压缩率远高于gzip/bzip2,虽然比此前的最佳程序低,但是压缩(解压)速度要比所有的竞争对手快几倍,支持任何FASTQ格式的变体,并且可以进行管道集成。

2015年,詹科等人基于Pthreads对DSRC算法进行了并行实现,将DSRC分为数据读入和数据压缩两个独立的任务。当使用4线程时,加速比达到3.5,能够显著提高压缩FASTQ格式的DNA数据的效率,但当线程数继续增加时,其性能下降,压缩时间增加。

2015年,Dutta等人提出了一种压缩算法FQC,除了在gzip上提供显着更高的压缩增益外,还包含数据存储库/最终用户普遍采用所必需的功能,该研究还提出了一种新颖的归档策略,允许序列存储库同时存储和传播fastq文件的无损和多重有损变体,而不需要额外的存储要求。

已经出现的实验性压缩工具共同存在的一些缺点:压缩(解压)缓慢、不能被其他软件直接使用、不支持某些类型的FASTQ文件(如在颜色空间或可变读数长度上)和不稳定容易崩溃。并且目前对FASTQ格式文件的传输大多利用TCP协议,传输速度很慢,很少有人针对传输协议进行优化。

发明内容

本发明所要解决的技术问题是提供一种FASTQ格式文件无损压缩的方法。

针对FASTQ格式文件的压缩,解决方案如下:

首先,将原FASTQ文件按序列进行提取,由于第三行没有太多实际意义,将其丢弃。然后,将提取的序列按照行重新生成新的文件,分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次,对第二步生成的三个文件分别利用进行压缩处理:对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后,对第三步生成的压缩文件,用tar将其压缩为一个文件,并且删除中间过程文件。

具体的解决方案如下:

一、原文件分割重组

读取原文件,将其按每四行作为一个记录,丢弃第三行没有意义的数据,并将第一行、第二行和第四行单独生成文件,分别为序列标志文件、序列数据文件和质量评分文件;

二、分割文件处理

对序列数据文件和质量评分文件分别直接使用压缩工具进行压缩,序列标志文件再次进行分割处理,分割后的文件再进行压缩,对序列标志文件的处理过程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710761520.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top