[发明专利]一种基于TPBWT自索引结构滑动窗口压缩方法有效
申请号: | 202110380222.0 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113035278B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 李杨;刘博;王亚东 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B25/00 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tpbwt 索引 结构 滑动 窗口 压缩 方法 | ||
一种基于TPBWT自索引结构滑动窗口压缩方法,本发明涉及一种DNA自索引滑动窗口压缩算法。本发明的目的是为了解决现有压缩工具LYZip不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩问题。一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:步骤一、数据预处理;步骤二、对步骤一预处理后数据进行分块处理;步骤三、对步骤二分块处理后的每一块进行分流处理;步骤四:将步骤三分流处理后的数据整合为一个压缩文件。本发明用于三代测序DNA数据压缩领域。
技术领域
本发明涉及三代测序DNA数据压缩领域,具体涉及一种DNA自索引滑动窗口压缩算法。
背景技术
随着测序技术的发展,尤其是三代测序技术的出现,使得测序飞速增加并且大量积累主流的压缩技术,如CRAM、Quip压缩二代数据效果较好,压缩三代数据表现较差。基于TPBWT的LYZip压缩工具可以很好地压缩三代DNA数据,达到非常高的压缩比。但是灵活性较差,不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩。
针对上述问题,提取一种针对三代测序数据,并且能够按照用户需要灵活高效,并且能够保持高压缩比的压缩方法十分必要。
发明内容
本发明的目的是为了解决现有压缩工具LYZip不能够按照用户需求压缩指定区间数据,压缩耗时长,无法实现多线程压缩问题,而提出一种基于TPBWT自索引结构滑动窗口压缩方法。
一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:
步骤一、数据预处理;
步骤二、对步骤一预处理后数据进行分块处理;
步骤三、对步骤二分块处理后的每一块进行分流处理;
步骤四:将步骤三分流处理后的数据整合为一个压缩文件。
本发明的有益效果为:
基于TPBWT自索引结构滑动窗口压缩方法是以LYZip核心算法为基础,通过比对参考基因序列和指定压缩窗体区间大小,动态的压缩三代重测序DNA测序数据的压缩工具。
滑动窗口压缩算法是以TPBWT自索引结构为基础,针对三代重测序DNA数据的压缩算法。碱基序列的具体压缩过程中不需要引入参考基因组,但是整个工作流在预处理阶段需要输入参考序列,目的是设置间隔标志位。该算法相对于LYZip中提出的TPBWT压缩算法可以按照需求设置滑动窗口大小,实现并发多线程压缩,降低压缩时常;设置滑动窗体区间实现对于指定区间测序序列的动态压缩。相较于LYZip压缩算法,该算法更加灵活,高效,省时。
附图说明
图1为本发明滑动窗口算法流程图;
图2为本发明压缩框架图;
图3为待压缩的三代DNA测序短读序列比对到参考基因组之后的排列图。
具体实施方式
具体实施方式一:结合图1、图2说明本实施方式,本实施方式一种基于TPBWT自索引结构滑动窗口压缩方法具体过程为:
步骤一、数据预处理;
步骤二、对步骤一预处理后数据进行分块处理;
步骤三、对步骤二分块处理后的每一块进行分流处理;
步骤四:将步骤三分流处理后的数据整合为一个压缩文件。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中数据预处理;具体过程为:
步骤一为数据预处理,就是将sam格式的数据处理成能够压缩的形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380222.0/2.html,转载请声明来源钻瓜专利网。