[发明专利]基于众核平台上面向二代测序数据的序列比对方法及系统有效
| 申请号: | 202010213357.3 | 申请日: | 2020-03-24 |
| 公开(公告)号: | CN111443947B | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 刘卫国;张金潇;殷泽坤;刘美洋;张雯 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F9/38;G16B30/10 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250101 *** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 平台 面向 二代 序数 序列 方法 系统 | ||
本发明公开了基于众核平台上面向二代测序数据的序列比对方法及系统,包括:根据平台计算能力,自适应的调整读入的数据块大小,实现计算与I/O的相互掩盖;基于内存池策略利用预分配策略和轻量级的内存分配策略,减小内存开销;充分利用处理器的向量处理单元,采用指令集对计算过程进行向量化并行。对于BWA‑MEM算法,其整体性能有了显著提升,程序整体性能取得了3.62倍的加速比;算法线程拓展性有了显著改善;核心计算部分相比与原算法,在不同大小的数据集下取得的加速比情况为8.4~12.6。
技术领域
本发明属于数据处理技术领域,尤其涉及基于众核平台上面向二代测序数据的序列比对方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
基因测序技术是基因组学中一个高速发展变化的领域。在目前的测序技术仍然在不断改进、进一步提高性能的同时,新的测序技术的出现也层出不穷。由于下一代基因测序(Next Generation Sequencing,简称NGS)技术进步和测序成本下降的速度比计算机硬件行业的发展及相应计算能力增加的速度更快(NGS进步速度高于摩尔定律),NGS数据产生的速度与其计算分析能力之间的差距只会越来越大。缩小这个差距,加快NGS数据分析的处理过程,人们对于成本更低、速度更快、对插入和缺失等错误灵敏度和准确度更高、同时可以支持更长序列计算算法的需求也越来越强烈。
发明人在研究中发现,现有的面向二代测序数据的序列比对算法虽然在速度和精度上保持了良好的平衡,但经过分析仍然发现其存在计算与I/O相互掩盖不足的流水线设计问题、内存分批开销过大问题、以及未向量化等问题。这使得算法无法充分发挥其性能。
面向二代数据的序列:为新一代测序(NGS,Next Generation Sequencing)序列,区别于第一代测序技术测得的序列,数据量大,每条序列的长度在几十到几百。
当前针对面向二代数据的序列比对算法优化有如下几个问题:
1.计算与I/O相互掩盖不足的流水线设计问题;
2.程序中大量、频繁的内存操作带来的额外开销过大;
3.核心计算部分未进行向量化。
发明内容
为克服上述现有技术的不足,本发明提供了基于众核平台上面向二代测序数据的序列比对方法,修改数据划分方式,自适应的调整读入的数据块大小,从而更好的实现计算与I/O的相互掩盖。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
基于众核平台上面向二代测序数据的序列比对方法,包括:
读入数据:读入基因测序仪测得的基因测序数据,根据基因测序的数据格式,对其中的碱基数据进行序列比对计算处理;
其中,序列比对计算处理步骤为:根据处理器计算性能,自适应的调整读入的数据块大小,利用处理器的向量处理单元,采用指令集对计算过程进行向量化并行;
基于内存池策略利用预分配策略和轻量级的内存分配策略对读入的数据块进行存储。
进一步的技术方案,根据处理器计算性能,将第一次读取的数据取一个较小的数据块,通过信号量标记读取的数据是否完成计算,在数据进行计算时读取下一块数据,计算完毕修改信号量结束当前读取,进行计算,使用动态方法确定可变块数据大小完成数据读取与计算的掩盖。
进一步的技术方案,在真正使用内存之前,先申请分配一定数量的内存块备用,通过指针操作,模拟分配内存的过程,当程序有新的内存使用需求时,就从内存池中分出一部分内存块,若内存块不够再继续申请新的内存,对于每个线程,初始化一个内存池,线程内频繁调用的计算部分,使用内存池分配内存,提高内存分配效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010213357.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动大蒜分瓣装置
- 下一篇:一种基于区块链的内容传播溯源系统





