[发明专利]一种用于生物信息序列分析的加速平台有效
申请号: | 201510364893.2 | 申请日: | 2015-06-26 |
公开(公告)号: | CN105046109B | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 薛元坤;黄柯;魏国鹏 | 申请(专利权)人: | 四川云合创智科技有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/18 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 云计算平台 生物信息 信息序列 任务数据库 序列分析 高性能计算领域 生物信息学 硬件加速器 参照生物 底层驱动 分析处理 分析硬件 管控接口 目标生物 任务存储 任务调度 分析 非压缩 重构 协同 压缩 参考 | ||
本发明一种用于生物信息序列分析的加速平台,属于生物信息学以及高性能计算领域,由云计算平台、信息序列分析硬件加速平台、本地任务调度与重构管控接口、底层驱动组成;云计算平台接收压缩或者非压缩的目标生物信息序列任务,并将目标任务存储在目标任务数据库,等待云计算平台单独或者与硬件加速器平台协同分析处理,本发明参照生物信息序列参考库,对目标任务数据库进行分析,采用该平台对生物信息序列进行分析,可以使分析速度可以得到巨大提高,同时极大地降低计算成本。
技术领域
本发明属于生物信息计算与高性能计算领域,特别涉及一种用于生物信息序列分析的加速平台。
背景技术
生物信息序列通常是包含遗传信息的DNA、RNA序列等。这些带有遗传信息的序列在一些因素的影响下会发生突变,而突变往往对应着各种疾病,如癌症等。因此,对生物信息序列进行分析处理,找出其中的突变位点具有重要意义。当前,生物信息序列主要是通过基因测序得到。
近年来,随着基因测序技术的高速发展,测序数据吞吐量有了极大的提升。在2014年初,基因测序仪龙头企业Illumina发布了HiSeq X Ten测序仪,其不间断测序能力已达到每年18,000个全人类基因组。这令人惊叹的数据生成速度对数据处理和分析的能力提出了极高的要求。具体来说,HiSeq X Ten系统的一个运行周期为三天,一个运行周期内测序150个基因组。这也就意味着在三天之内,这些数据必须得到处理,否则便会产生数据阻塞,待数据处理越积越多。简单计算可知,要满足数据处理的要求,就必须在28分钟内完成基因分析的整个流水线过程。如果采用通用云计算以及现今产业界标准的BWA+GATK等分析工具,在高端服务器(12核心双路Intel至强处理器,96GB动态内存)上需要24小时才能完成一个基因组的分析。为了达到HiSeq X Ten三天150个基因组数据的处理需求,至少需要50台这样的高端服务器。考虑到能耗,IT维护等因素,该计算平台的成本将难以接受。
可以看到,即便是高端服务器也远远不能满足生物信息序列分析对速度的需求,并且其分析处理的成本很高。基因数据的处理如此费时的原因是其数据量极大,通常可以达到数百GB。为了找出突变,通常需要将基因序列与基因库中的海量数据进行比对,这一过程包括了质量评估、对准、变体识别、标记等处理。当前,该流程中的各处理步骤都可由运行在CPU上的软件来实现。发展到今天,这些软件实现已经显得较为成熟,据统计,目前已经有数百套软件分别支持该流程中的各处理步骤。然而,由于基因数据极大并且计算过程较为复杂,因此运行在CPU上的软件对各个步骤的计算十分缓慢。
综上所述,基因数据的产生较快并且其数据量极大。对基因数据的处理需要耗费大量计算资源,同时消耗大量时间。为了提高基因数据的处理速度,以匹配基因数据的产生速度,专用、高速、高效的生物信息序列分析平台有着广泛和根本的需求。
当前,用以进行生物信息序列处理的计算平台主要包括ASIC(applicationspecific integrated circuits),FPGA(Field programmable gate arrays),GPU(Graphics Processor Units),以及CPU(Central Processing Unit)等。在这些数据计算平台上,ASIC无疑拥有最高的性能和最好的能耗效率。然而,ASIC的实现需要极大的研发投入和时间成本,实现难度最大。通常,实现一款ASIC需要对设计进行充分细致的验证,测试并多次试产,这个过程往往耗时数年且通常花费数百万美元以上。常规的CPU计算平台通过软件程序实现对数据的处理,实现起来较其他平台容易,但性能也最低。而对GPU平台而言,其拥有高速的I/O,但受限于有限的存储资源。尽管实现起来相对FPGA和ASIC更为容易,其性能却较FPGA和ASIC都低。FPGA的时钟频率虽然较CPU低一个数量级,但其提供了大量可利用的并行计算资源。此外,FPGA具有高速双向I/O,较大的共享内存,以及高度并行化的特点。这些特点使得FPGA十分适合用于计算加速。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川云合创智科技有限公司,未经四川云合创智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510364893.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用