[发明专利]一种序列比对滤波处理方法、系统、装置及可读存储介质有效
申请号: | 201910098868.2 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109841264B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 赵健;史宏志;崔星辰;尹云峰 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 滤波 处理 方法 系统 装置 可读 存储 介质 | ||
本申请公开了一种序列比对滤波处理方法、系统、装置及计算机可读存储介质,包括:将每一个seed在参考序列上出现的绝对位置进行分块化处理,得到分块后的每个seed的相对位置;预先将参考序列划分为多个参考序列子片段,建立每个seed的相对位置与相应的参考序列子片段的映射关系;利用每个seed的特征标识和映射关系,确定出每个seed所属的参考子序列,并统计每个参考子序列的seed的出现次数;利用每个参考子序列中seed的出现次数,过滤掉不满足预设条件的参考子序列,得到目标参考序列子片段;利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值,恢复出真正的CAL;本申请尽可能多地过滤掉无效的匹配位置,减少后续扩展的工作负载,提高了工作效率。
技术领域
本发明涉及计算机领域,特别涉及一种序列比对滤波处理方法、系统、装置及计算机可读存储介质。
背景技术
随着生物基因检测技术的迅速发展,提取个人的基因进行基因序列的比对,预测罹患多种疾病的可能性,锁定个人病变的基因,提前预防和治疗,愈发成熟。人类基因库目前约为30亿个碱基对,采用通用的计算机软件处理平台完成一个人的基因序列比对需要几天。传统的CPU处理平台已经不能满足对基因比对结果的快速,实时获取需求。基因序列比对对平台的计算性能需求越来越高,GPU,FPGA等各种高性能加速器被逐渐应用其中。
序列比对算法主要包括找种子和扩展两个阶段。为了提高序列比对的精度,需要尽可能的找到待比对序列的seed在参考序列中出现的位置。因为在大量无效位置的比对处理,整个比对系统的性能将大打折扣。
为此,需要对前期找到的seed进行滤波处理,尽可能多地过滤掉无效的匹配位置,减少后续扩展的工作负载,同时保证系统的比对精度。
发明内容
有鉴于此,本发明的目的在于提供一种序列比对滤波处理方法、系统、装置及计算机可读存储介质,减少后续扩展的工作负载,提高工作效率。其具体方案如下:
一种序列比对滤波处理方法,包括:
查找待比序列的所有seed在参考序列上出现的绝对位置;
将每一个seed在参考序列上出现的绝对位置进行分块化处理,得到分块后的每个seed的相对位置;
预先将参考序列划分为多个参考序列子片段,建立每个seed的相对位置与相应的参考序列子片段的映射关系;
利用每个seed的特征标识和所述映射关系,确定出每个seed所属的参考子序列,并统计每个参考子序列的seed的出现次数;
利用每个参考子序列中seed的出现次数,过滤掉不满足预设条件的参考子序列,得到满足所述预设条件的目标参考序列子片段;
利用目标参考序列子片段中每个seed的相对位置与绝对位置的差值,恢复出真正的CAL。
可选的,所述利用每个seed的特征标识和所述映射关系,确定出每个seed所属的参考子序列的过程,包括:
计算每个seed的hash值;
利用每个seed的hash值作为地址在保存有所述映射关系的滤波hash表中确定出每个seed所属的参考子序列。
可选的,所述利用每个参考子序列中seed的出现次数,过滤掉不满足预设条件的参考子序列的过程,包括:
利用每个参考子序列中seed的出现次数、出现次数的均值和/或最大值的下降梯度,设置动态滤波门限值;
过滤掉不满足所述动态滤波门限值的参考子序列。
本发明还公开了一种序列比对滤波处理系统,包括:
绝对位置查找模块,用于查找待比序列的所有seed在参考序列上出现的绝对位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910098868.2/2.html,转载请声明来源钻瓜专利网。