[发明专利]一种面向SSD的基因对比方法及系统有效
申请号: | 201910354585.X | 申请日: | 2019-04-29 |
公开(公告)号: | CN110085284B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 王毅;林观泉;陈炜轩;黄江帆;毛睿;廖好;周池 | 申请(专利权)人: | 深圳大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G06F3/06 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 梁岩 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 ssd 基因 对比 方法 系统 | ||
本发明公开了一种面向SSD的基因对比方法及基于此方法的比对系统。本发明所述的方法主要包括获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐,递进式对比等手段将数据作了一个粗略的筛选,大大减少了需要编辑距离计算的数据的比例,提升了效率,缩短了计算时间。
技术领域
本发明涉及数据处理领域,尤其涉及一种面向SSD的基因对比方法及系统。
背景技术
在生物学中,基因序列分析是非常关键的一部分。就目前的技术来说,测出某DNA片段的序列已非常高效,目前的基因序列分析瓶颈在于read mapping环节,亦就是基因序列对比环节。而在基因序列对比中,一般使用编辑距离来判断两个DNA的相似度,但是编辑距离的计算非常耗费时间。
其次,DNA片段数据量非常庞大,当某个DNA片段需要和百万级别或以上的DNA片段进行对比时,频繁的DNA数据读写所耗费的时间非常庞大。
在DNA基因对比这方面,已经有前人提出了过滤算法,如GRIM-Filters,他们旨在先通过一个简单算法过滤掉一些不需要进行编辑距离计算的DNA片段,通过减少编辑距离的计算次数来达到加速DNA对比的目的。
因此开发一种新的基因比对方法解决原有方法对基因数据处理效率低时间长的问题具有十分重要的意义。
发明内容
本发明的主要目的在于提供一种面向SSD的基因对比方法,旨在解决现有技术中对基因数据处理效率低、时间长的技术问题。
为实现上述目的,本发明第一方面提供面向SSD的基因对比方法,包括:
获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
为实现上述目的,本发明第二方面提供一种面向SSD的基因对比系统,所述系统包括:
DNA数据对齐模块,用于获取第一DNA片段和第二DNA片段,在SSD中对两个DNA片段进行对齐处理;
参数确定模块,用于从SSD中读取所述两个DNA片段的数据,根据所述两个DNA片段的数据及预设的精度参数确定对比参数;
递进式对比模块,用于基于对比参数,对所述两个DNA片段进行递进式对比,得到对比结果。
本发明结合SSD,一方面减少了数据读写次数;另一方面通过对齐策略,递进式对比等手段将数据先进行一个粗略的筛选,大大减少了需要编辑辑距离计算的数据的比例,提升了效率,缩短了计算时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中面向SSD的基因对比方法的流程示意图;
图2为本发明实施例中面向SSD的基因对比系统的结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354585.X/2.html,转载请声明来源钻瓜专利网。