[发明专利]一种用于基因相似性分析的加速装置、方法和计算机设备有效
申请号: | 201911191604.8 | 申请日: | 2019-11-28 |
公开(公告)号: | CN110990063B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 陈灿;臧大伟;沈华;谭光明;孙凝晖 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G16B20/00 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 基因 相似性 分析 加速 装置 方法 计算机 设备 | ||
本发明实施例提供了一种用于基因相似性分析的加速装置、方法和计算机设备,该加速装置包括高速通信接口,用于与主机通信,接收主机分发的待加速处理的任务;序列缓存模块,用于缓存来自主机的一个或者多个任务,每个任务包含待进行基因相似性分析的多个基因序列数据;阵列处理机,其上设有用于处理任务的处理单元,处理单元中设有基于数据驱动的流式计算模式处理任务的完整流水线,流水线中配置有处理任务所需的多个定点计算部件;控制模块,其被配置为用于将序列缓存模块中的待处理的任务分配给处理单元;任务缓存模块,其上设置有任务缓存单元,用于缓存分配给处理单元的待处理任务。本发明能够提高基因相似性分析的效率,快速得到分析结果。
技术领域
本发明涉及生物基因数据处理技术领域,具体来说涉及一种面向图解基因相似性算法的加速结构,更具体地说,涉及一种用于基因相似性分析的加速装置、方法和计算机设备。
背景技术
随着人类基因组计划的完成,人类对遗传信息的了解和掌握有了前所未有的进步。与此同时,随着分子水平的基因检测技术不断发展和完善,使得基因测序技术得到了迅猛发展,高通量、低成本的测序技术已经普遍应用,积累了大量不同物种的基因和蛋白质数据。面对爆炸性增长的基因序列的数据量,如何分析和解读基因序列中所包含的有用信息成为目前生物学研究的关键。基因序列的相似性分析在生物信息学中作为关键技术之一,是理解基因序列本身结构功能与生物信息最基本的方法。对于一个未知生物的基因序列数据,如果能够证明它与某些已知序列存在联系,那么就能在一定程度上推断出生物的种类和性状,对生物学、医药学的研究具有重要意义。面对海量的基因序列数据,如何提高相似性分析的速度和能效,显得尤为重要。
基因序列相似性分析算法一般包括比对算法(aligment method)和非比对算法(aligment-free method)。比对算法计算较为精确,但计算复杂度高,速度慢且需要消耗大量的计算资源,随着基因数据的快速增长,比对算法已经不能满足基因相似性分析的需求。非比对算法的一个优势是避免了选择多个基因的完整基因组序列来进行分析,其次是计算复杂度低并且耗费时间短。近年来,非比对算法在学业界和产业界发展迅速,非比对算法通常包括统计学方法和图解表示法等,基于k-words的方法是一种经典的统计学方法,但是统计学方法忽略了生物分子的化学结构和特性。基于图解表示法的主要过程是将序列映射到图形中,这样生物序列的复杂关系能够变得可视化,然后可以使用数值特征描述可视化的图形。
如果采用通用处理器实现非比对算法时,其处理时间过长,难以满足快速对数百万个碱基序列进行相似性分析的需求,所以迫切需要新的计算结构来加速大量碱基序列的相似性分析。具体来说,虽然图解基因相似性分析算法在适用性和准确性上有很大的优势,但是面对海量的基因序列数据,其巨大的计算量需求对计算系统的设计提出了挑战。例如,当前通用处理器的RNA序列比对的通量为每秒一万个碱基,如果用于处理一个RNA 病毒的序列比对,每次通常需要比对几十万个病毒序列,按照病毒平均长度为1000个碱基计算,得到一个病毒的比对结果则需要十几个小时,对后续制定应对措施比如制药等有较大的影响,特别是在应对一些因病毒或者细菌引发的突发大规模感染事件,需要争分夺秒制定应对措施以防止病毒或者细菌失控扩散,而现有的技术在性能上不能满足要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911191604.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种滑环
- 下一篇:一种提醒行人的车载警示方法及其系统