[发明专利]一种基于TPBWT自索引结构滑动窗口压缩方法有效
申请号: | 202110380222.0 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113035278B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 李杨;刘博;王亚东 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B25/00 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tpbwt 索引 结构 滑动 窗口 压缩 方法 | ||
1.一种基于TPBWT自索引结构滑动窗口压缩方法,其特征在于:所述方法具体过程为:
步骤一、数据预处理;
步骤二、对步骤一预处理后数据进行分块处理;
步骤三、对步骤二分块处理后的每一块进行分流处理;
步骤四:将步骤三分流处理后的数据整合为一个压缩文件;
所述步骤二中对步骤一预处理后数据进行分块处理;具体过程为:
设置滑动窗口参数:滑动窗口区间和滑动窗口大小;
压缩分为两个分支:指定区间动态压缩和多数据块并行压缩;
所述指定区间为滑动窗口区间的起始位置和终止位置;
所述多数据块并行压缩为根据滑动窗口大小将全部数据划分为多个子数据;多个子数据就组成了多数据块;
步骤二一、当设置滑动窗口区间的起始位置和终止位置坐标时,进行指定区间的动态压缩;具体过程为:
设置滑动窗口区间初始的起始位置和终止位置的区间范围为[start1,end1],处在滑动窗口边缘的短读序列采取边缘取舍策略;
边缘取舍策略分为以下2种情况:
1)全部舍弃:舍弃处在滑动窗口边缘的短读序列;
2)全部保留:不断延伸滑动窗口区间,直到全部处在滑动窗口边缘的短读序列都被滑动窗口包含在内;
步骤二二、当设置滑动窗口的大小时,进行多数据块并行压缩;具体过程为:
根据设定滑动窗口的大小将短读序列划分为大小相同的数据块;通过设定线程数,确定一次并行处理多少个数据块;
所述线程数threads=n,对于短读序列区间范围[start2,end2],滑动窗口大小最佳的选取范围是n为线程数;
所述步骤三中对步骤二分块处理后的每一块进行分流处理;具体过程为:
步骤三一、对步骤二一或步骤二二分块处理后的每一块中碱基序列进行压缩;
步骤三二、对步骤二一或步骤二二分块处理后的每一块中单核苷酸变异、插入删除变异或结构变异数据进行压缩;
步骤三三、对步骤二一或步骤二二分块处理后的每一块中能够比对到参考基因组参考序列的短读序列碱基对应的质量分数进行压缩;
步骤三四、对步骤二一或步骤二二分块处理后的每一块中不能够比对到参考基因组参考序列的短读序列碱基对应的质量分数进行压缩;
步骤三五、对步骤二一或步骤二二分块处理后的每一块中短读序列包含的起始位置信息,终止位置信息,长度信息数据进行压缩;
所述步骤三一中对步骤二一或步骤二二分块处理后的每一块中碱基序列进行压缩;具体过程为:
指定区间的动态压缩和多数据块并行压缩对于每条待压缩的三代DNA测序短读序列碱基都是按照子区间进行压缩处理;
对子区间进行指定区间的动态压缩或多数据块并行压缩为对子区间进行TPBWT转换;
将转换后的压缩数据进行游程编码,使用keys和values将游程编码后的游程段转换为比特数据;
所述步骤三二中对步骤二一或步骤二二分块处理后的每一块中单核苷酸变异、插入删除变异或结构变异数据进行压缩;具体过程为:
指定区间的动态压缩对于三代DNA测序短读序列碱基仅压缩子区间单核苷酸变异、插入删除变异或结构变异数据信息;
多数据块并行压缩则需要对三代DNA测序短读序列碱基的全部单核苷酸变异、插入删除变异或结构变异数据压缩处理;
单核苷酸变异、插入删除变异或结构变异数据采用哈希表的方式进行存储,对于单核苷酸变异、插入删除变异或结构变异数据的{A,T,C,G,N}字符采用霍夫曼编码进行压缩;
所述步骤三三中对步骤二一或步骤二二分块处理后的每一块中能够比对到参考基因组参考序列的短读序列碱基对应的质量分数进行压缩;具体过程为:
指定区间的动态压缩仅压缩子区间的能够比对到参考基因组参考序列的短读序列碱基对应的质量分数数据;
数据块并行压缩则需要对全部能够比对到参考基因组参考序列的短读序列碱基对应的质量分数数据压缩处理;
能够比对到参考基因组参考序列的短读序列碱基对应的质量分数采用有损压缩策略;
所述有损压缩策略为使用illumina的8级分箱策略进行分箱均值化处理;
所述步骤三四中对步骤二一或步骤二二分块处理后的每一块中不能够比对到参考基因组参考序列的短读序列碱基对应的质量分数进行压缩;具体过程为:
指定区间的动态压缩仅压缩子区间的不能够比对到参考基因组参考序列的短读序列碱基对应的质量分数数据;
数据块并行压缩则需要对全部不能够比对到参考基因组参考序列的短读序列碱基对应的质量分数数据压缩处理;
不能够比对到参考基因组参考序列的短读序列碱基对应的质量分数采用有损压缩策略;
所述有损压缩策略为使用离散化分箱处理;
所述步骤三五中对步骤二一或步骤二二分块处理后的每一块中短读序列包含的起始位置信息,终止位置信息,长度信息数据进行压缩;具体过程为:
指定区间的动态压缩仅处理指定区间的信息,舍弃每个短读序列碱基的起始、终止位置和长度信息,仅保留子区间最小起始位点信息;
对子区间最小起始比对位点信息采用算术编码方式进行压缩;
数据块并行压缩则需要保留划分区间的数量信息和最小起始比对信息,舍弃其他全部信息;
对划分区间的数量信息和最小起始比对信息采用算术编码方式进行压缩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380222.0/1.html,转载请声明来源钻瓜专利网。