[发明专利]FASTQ格式文件无损压缩的方法在审
申请号: | 201710761520.8 | 申请日: | 2017-08-30 |
公开(公告)号: | CN107565975A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 袁晓辉 | 申请(专利权)人: | 武汉古奥基因科技有限公司 |
主分类号: | H03M7/46 | 分类号: | H03M7/46 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | fastq 格式文件 无损 压缩 方法 | ||
1.一种FASTQ格式文件的压缩方法,其特征在于,包括如下步骤:
一、原文件分割重组
读取原文件,将其按每四行作为一个记录,丢弃第三行没有意义的数据,并将第一行、第二行和第四行单独生成文件,分别为序列标志文件、序列数据文件和质量评分文件;
二、分割文件处理
对序列数据文件和质量评分文件分别直接使用压缩工具进行压缩,序列标志文件再次进行分割处理,分割后的文件再进行压缩,对序列标志文件的处理过程如下:
1)构建标志集:根据关键符号对标识符进行分割将其标记化,标记化算法是将标识符内两个关键符号之间的数字和字母从T1开始按序号利用Ti进行标记,得到由占位符组成的正则表达式,其中关键符号包括:点(.),空格(),下划线(_),连字符(-),斜杠(/),等号(=)和冒号(:);假设每个标识符中存在的标记的数量为t,每个Ti叫做一个标志集,1≤i≤t;
2)对标志集进行压缩处理:使用游程编码压缩带有字母数字值的标志集,如果游程编码不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;通过存储连续标记之间的差异来压缩具有整数值的标志集,如果该方法不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;如果标志集没有被上述任何方法转换,则取每个标志集并将其反转;
3)对变换后的标志集应用混合压缩:使用上下文混合算法zpaq,对变换后的标志集进行压缩,参数为-method 5-threads 8或-method 5-threads 12;
三、文件打包及二次压缩
在对分割文件处理之后,使用gzip的tar命令进行打包处理,修改tar命令的参数为zcf,并对算法执行过程中生成的中间文件进行清理操作。
2.根据权利要求1所述的压缩方法,其特征在于,压缩后的文件采用UDP协议传输。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710761520.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种静态哈夫曼并行全编码实现方法
- 下一篇:导光板及面光源