[发明专利]一种基于外显子区域插入的数据压缩方法有效

专利信息
申请号: 202110388432.4 申请日: 2021-04-12
公开(公告)号: CN112863600B 公开(公告)日: 2022-05-24
发明(设计)人: 张云翔;李杨;刘博;王亚东 申请(专利权)人: 哈尔滨工业大学
主分类号: G16B30/00 分类号: G16B30/00;G16B30/20
代理公司: 哈尔滨华夏松花江知识产权代理有限公司 23213 代理人: 岳昕
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 外显子 区域 插入 数据压缩 方法
【权利要求书】:

1.一种基于外显子区域插入的数据压缩方法,其特征在于所述方法具体过程为:

步骤一、对测序短读DNA数据进行预处理获取外显子数据集合;

步骤二、对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;

步骤三、将哈希表中的异常值进行有序存放,包括以下步骤:

步骤三一、利用LYZip局部解压缩策略,对碱基序列和异常值列表进行解压缩;

所述局部解压的范围是外显子区间范围;

所述局部解压缩的过程是从压缩文件开始位置一直解压缩到外显子最大结束位置;

步骤三二、将新加入的异常值在每一列的哈希表中按照顺序存放:

在某位点下A序列的异常值a,在B序列的异常值b,a位于b前,那么在异常值表中同样保持这个顺序不变;

步骤三三、将原有的待压缩数据进行EXTPBWT变换,哈希表中新加入的异常值不进行EXTPBWT变换;

步骤三四、将所有异常值都存放在每一列对应哈希表的最后,将每一列都设置新加入序列的数量信息;

步骤四、使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;

步骤五、利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复步骤一到三再次进行插入压缩。

2.根据权利要求1所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤一中对测序短读DNA数据进行预处理获取外显子数据集合,包含以下步骤:

步骤一一、筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读:

输入TPBWT变换压缩数据、测序短读数据集合和参考基因组,通过参考基因组筛选待压缩的数据,去掉测序序列中不包含基因片段的测序短读;通过公共数据库中公认的外显子区间范围对输入测序短读序列进行筛选,如果该序列不在任何外显子区间内,则该序列为无用序列,将其删除;如果该序列中包含一个或多个外显子,则保留;

步骤一二、将包含基因片段的测序短读进行剪切:

将步骤一一保留下来的短读序列进一步筛选其中的外显子区域,如果该序列包含一个或者多个外显子区域则将这些区域全部保留;

步骤一三、提取剪切后的测序短读外显子区间的碱基序列,获得外显子数据集合:

每一条短读序列经过筛选和剪切之后包含一个或者多个外显子,将来自同一条序列的外显子放在一起进行存储。

3.根据权利要求2所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二中对外显子数据集合进行质控并将异常值存储在哈希表中,包括以下步骤:

步骤二一、外显子整体质控;

步骤二二、外显子内部变异质控并将获取的异常值存储在哈希表中。

4.根据权利要求3所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二一中外显子整体质控,包括以下步骤:

计算每一个外显子全部碱基的测序质量分数的平均值,若平均值低于30,则认为整条外显子测序存在问题,整体的数据质量较差,将整条外显子舍弃;若该值高于30,则整条序列可靠,保留可靠序列并进行外显子内部变异质控。

5.根据权利要求4所述的一种基于外显子区域插入的数据压缩方法,其特征在于:所述步骤二二中外显子内部变异质控,包括以下步骤:

步骤二二一、引入参考序列基因组,将参考序列基因组和外显子整体质控后的碱基序列进行比对获取无法比对到参考基因组上碱基序列的质量分数记为异常质量分数;

步骤二二二、将异常质量分数大于预设阈值的位点存储到对应位点下的哈希表中,比对质量分数小于预设阈值的位点进行舍弃;

步骤二二三、将碱基序列中舍弃的位点通过参考序列基因组的对应位点上的碱基进行填补,填补后存储到数组中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110388432.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top