[发明专利]FASTQ格式文件无损压缩的方法在审
申请号: | 201710761520.8 | 申请日: | 2017-08-30 |
公开(公告)号: | CN107565975A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 袁晓辉 | 申请(专利权)人: | 武汉古奥基因科技有限公司 |
主分类号: | H03M7/46 | 分类号: | H03M7/46 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于生物信息领域,涉及一种DNA测序数据的标准存储方式FASTQ格式文件无损压缩的方法。首先,将原FASTQ文件按序列进行提取,第三行丢弃。然后,将提取的序列按照行重新生成新的文件,分别为保存第一行的序列标志文件、保存第二行的序列数据文件和保存第四行的质量评分文件。其次,对第二步生成的三个文件分别利用进行压缩处理对序列数据文件进行压缩、对质量评分文件进行压缩、将序列标志文件进行处理之后再进行压缩。最后,对第三步生成的压缩文件,用tar将其压缩为一个文件,并且删除中间过程文件。通过本发明方法可以对下一代测序技术产生的海量DNA测序数据进行经济性存储和快速传输。 | ||
搜索关键词: | fastq 格式文件 无损 压缩 方法 | ||
【主权项】:
一种FASTQ格式文件的压缩方法,其特征在于,包括如下步骤:一、原文件分割重组读取原文件,将其按每四行作为一个记录,丢弃第三行没有意义的数据,并将第一行、第二行和第四行单独生成文件,分别为序列标志文件、序列数据文件和质量评分文件;二、分割文件处理对序列数据文件和质量评分文件分别直接使用压缩工具进行压缩,序列标志文件再次进行分割处理,分割后的文件再进行压缩,对序列标志文件的处理过程如下:1)构建标志集:根据关键符号对标识符进行分割将其标记化,标记化算法是将标识符内两个关键符号之间的数字和字母从T1开始按序号利用Ti进行标记,得到由占位符组成的正则表达式,其中关键符号包括:点(.),空格(),下划线(_),连字符(‑),斜杠(/),等号(=)和冒号(:);假设每个标识符中存在的标记的数量为t,每个Ti叫做一个标志集,1≤i≤t;2)对标志集进行压缩处理:使用游程编码压缩带有字母数字值的标志集,如果游程编码不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;通过存储连续标记之间的差异来压缩具有整数值的标志集,如果该方法不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;如果标志集没有被上述任何方法转换,则取每个标志集并将其反转;3)对变换后的标志集应用混合压缩:使用上下文混合算法zpaq,对变换后的标志集进行压缩,参数为‑method 5‑threads 8或‑method 5‑threads 12;三、文件打包及二次压缩在对分割文件处理之后,使用gzip的tar命令进行打包处理,修改tar命令的参数为zcf,并对算法执行过程中生成的中间文件进行清理操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710761520.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种静态哈夫曼并行全编码实现方法
- 下一篇:导光板及面光源