[发明专利]一种基于TPBWT自索引结构滑动窗口压缩方法有效

专利信息
申请号: 202110380222.0 申请日: 2021-04-08
公开(公告)号: CN113035278B 公开(公告)日: 2023-03-24
发明(设计)人: 李杨;刘博;王亚东 申请(专利权)人: 哈尔滨工业大学
主分类号: G16B30/10 分类号: G16B30/10;G16B25/00
代理公司: 哈尔滨华夏松花江知识产权代理有限公司 23213 代理人: 岳昕
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 tpbwt 索引 结构 滑动 窗口 压缩 方法
【说明书】:

一种基于TPBWT自索引结构滑动窗口压缩方法,本发明涉及一种DNA自索引滑动窗口压缩算法。本发明的目的是为了解决现有压缩工具LYZip不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩问题。一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:步骤一、数据预处理;步骤二、对步骤一预处理后数据进行分块处理;步骤三、对步骤二分块处理后的每一块进行分流处理;步骤四:将步骤三分流处理后的数据整合为一个压缩文件。本发明用于三代测序DNA数据压缩领域。

技术领域

本发明涉及三代测序DNA数据压缩领域,具体涉及一种DNA自索引滑动窗口压缩算法。

背景技术

随着测序技术的发展,尤其是三代测序技术的出现,使得测序飞速增加并且大量积累主流的压缩技术,如CRAM、Quip压缩二代数据效果较好,压缩三代数据表现较差。基于TPBWT的LYZip压缩工具可以很好地压缩三代DNA数据,达到非常高的压缩比。但是灵活性较差,不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩。

针对上述问题,提取一种针对三代测序数据,并且能够按照用户需要灵活高效,并且能够保持高压缩比的压缩方法十分必要。

发明内容

本发明的目的是为了解决现有压缩工具LYZip不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩问题,而提出一种基于TPBWT自索引结构滑动窗口压缩方法。

一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:

步骤一、数据预处理;

步骤二、对步骤一预处理后数据进行分块处理;

步骤三、对步骤二分块处理后的每一块进行分流处理;

步骤四:将步骤三分流处理后的数据整合为一个压缩文件。

本发明的有益效果为:

基于TPBWT自索引结构滑动窗口压缩方法是以LYZip核心算法为基础,通过比对参考基因序列和指定压缩窗体区间大小,动态的压缩三代重测序DNA测序数据的压缩工具。

滑动窗口压缩算法是以TPBWT自索引结构为基础,针对三代重测序DNA数据的压缩算法。碱基序列的具体压缩过程中不需要引入参考基因组,但是整个工作流在预处理阶段需要输入参考序列,目的是设置间隔标志位。该算法相对于LYZip中提出的TPBWT压缩算法可以按照需求设置滑动窗口大小,实现并发多线程压缩,降低压缩时常;设置滑动窗体区间实现对于指定区间测序序列的动态压缩。相较于LYZip压缩算法,该算法更加灵活,高效,省时。

附图说明

图1为本发明滑动窗口算法流程图;

图2为本发明压缩框架图;

图3为待压缩的三代DNA测序短读序列比对到参考基因组之后的排列图。

具体实施方式

具体实施方式一:结合图1、图2说明本实施方式,本实施方式一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:

步骤一、数据预处理;

步骤二、对步骤一预处理后数据进行分块处理;

步骤三、对步骤二分块处理后的每一块进行分流处理;

步骤四:将步骤三分流处理后的数据整合为一个压缩文件。

具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中数据预处理;具体过程为:

步骤一为数据预处理,就是将sam格式的数据处理成能够压缩的形式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110380222.0/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top