[发明专利]FASTQ格式文件无损压缩的方法在审

专利信息
申请号: 201710761520.8 申请日: 2017-08-30
公开(公告)号: CN107565975A 公开(公告)日: 2018-01-09
发明(设计)人: 袁晓辉 申请(专利权)人: 武汉古奥基因科技有限公司
主分类号: H03M7/46 分类号: H03M7/46
代理公司: 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 代理人: 常海涛
地址: 430000 湖北省武汉市*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: fastq 格式文件 无损 压缩 方法
【权利要求书】:

1.一种FASTQ格式文件的压缩方法,其特征在于,包括如下步骤:

一、原文件分割重组

读取原文件,将其按每四行作为一个记录,丢弃第三行没有意义的数据,并将第一行、第二行和第四行单独生成文件,分别为序列标志文件、序列数据文件和质量评分文件;

二、分割文件处理

对序列数据文件和质量评分文件分别直接使用压缩工具进行压缩,序列标志文件再次进行分割处理,分割后的文件再进行压缩,对序列标志文件的处理过程如下:

1)构建标志集:根据关键符号对标识符进行分割将其标记化,标记化算法是将标识符内两个关键符号之间的数字和字母从T1开始按序号利用Ti进行标记,得到由占位符组成的正则表达式,其中关键符号包括:点(.),空格(),下划线(_),连字符(-),斜杠(/),等号(=)和冒号(:);假设每个标识符中存在的标记的数量为t,每个Ti叫做一个标志集,1≤i≤t;

2)对标志集进行压缩处理:使用游程编码压缩带有字母数字值的标志集,如果游程编码不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;通过存储连续标记之间的差异来压缩具有整数值的标志集,如果该方法不能将标志集的大小减小到原始值的90%以下,则标志集保持未压缩状态;如果标志集没有被上述任何方法转换,则取每个标志集并将其反转;

3)对变换后的标志集应用混合压缩:使用上下文混合算法zpaq,对变换后的标志集进行压缩,参数为-method 5-threads 8或-method 5-threads 12;

三、文件打包及二次压缩

在对分割文件处理之后,使用gzip的tar命令进行打包处理,修改tar命令的参数为zcf,并对算法执行过程中生成的中间文件进行清理操作。

2.根据权利要求1所述的压缩方法,其特征在于,压缩后的文件采用UDP协议传输。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710761520.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top