[发明专利]一种BWT查表性能改进方法、装置、设备和介质有效
| 申请号: | 202010094129.9 | 申请日: | 2020-02-15 |
| 公开(公告)号: | CN111312333B | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 史宏志;赵健;崔星辰 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G16B20/30 | 分类号: | G16B20/30;G06F16/22 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 bwt 性能 改进 方法 装置 设备 介质 | ||
1.一种BWT查表性能改进方法,其特征在于,包括以下步骤:
读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作
依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程;
其中,所述读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作包括:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
将所述当前位置加1,再从新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;
重复上一步骤,直到读取到所述参考基因序列的结束位置;
所述输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界包括:
将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于比对失败而未能获取对应的上下边界,将所述测试基因序列的当前读取位置向后移动一个碱基对,获取从所述移动后的当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,并将所述获取的短序列进一步与所述映射关系表进行比对。
3.根据权利要求1所述的方法,其特征在于,所述预设的最小完全匹配长度阈值为19个碱基对。
4.根据权利要求1所述的方法,其特征在于,所述映射关系表为C++标准的关联式容器或支持哈希查询的数据结构。
5.根据权利要求1所述的方法,其特征在于,响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程包括:
根据所述获取的上下边界值来继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
6.一种BWT查表性能改进装置,其特征在于,包括:
基因序列切分模块,配置为读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作映射关系表生成模块,配置为依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
映射关系表查询模块,配置为输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
BWT查表模块,配置为响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程;
所述基因序列切分模块进一步配置为:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
将所述当前位置加1,再从新的当前位置开始读取长度为最小完全匹配长度阈值的短序列;
重复上一步骤,直到读取到所述参考基因序列的结束位置;
所述映射关系表查询模块进一步配置为:将所述获取的短序列转换为整型后与所述映射关系表进行比对,以获取其对应的上下边界。
7.一种BWT查表性能改进设备,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-5中任一项所述的方法。
8.一种计算机介质,其特征在于,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施如权利要求1-5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010094129.9/1.html,转载请声明来源钻瓜专利网。





