[发明专利]一种基因测序数据存储方法和装置有效
申请号: | 201811463734.8 | 申请日: | 2018-12-03 |
公开(公告)号: | CN109616156B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 朱红;刘羽;崔坤磊 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G16B50/00 | 分类号: | G16B50/00 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序数 存储 方法 装置 | ||
本发明公开了一种基因测序数据存储方法与装置,包括:分别将相对端的两个测序文件分割为多个数据块,并根据多个数据块向名称节点发送存储两个测序文件的请求;由名称节点根据请求而将多个数据块对应到多个数据节点中,其中将两个测序文件中所记载数据彼此相对应的两个数据块对应到同一数据节点中;将每个数据块分割为多个数据包,并将所有数据包分别存储到其各自所属数据块所对应的数据节点中的所有主机上。本发明的技术方案能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储,降低基因测序处理时间、提高基因测序并降低网络压力。
技术领域
本发明涉及大数据领域,并且更具体地,特别是涉及一种基因测序数据存储方法与装置。
背景技术
随着基因测序技术的发展,特别是高通量测试技术,比如二代测序和三代测序的发展,基因数据变的越来越触手可及。但相较于数据的爆发式增长,大多数的生物信息学软件的设计都是低效率的单线程运行或单节点运行。这是因为软件的设计者,即生物信息学领域的研发人员,大多不是十分的精通高性能计算的技术,不太愿意采用跨节点通信技术来在高性能计算集群上使用相应软件。于是,随着数据量越来越大,相应的生物信息学流程和软件的运行时间会显著变长,效率低下。虽然现在高性能计算技术已经较为成熟,其它传统计算学科比如天气预报等已经能够成功的利用数百个节点、上万核的CPU同时计算来获取高精度的天气数据,而对于生物信息学领域来说,大多数据处理还集中在单个计算节点、甚至单CPU核心的层次,严重跟不上当前高性能计算硬件计算能力的增长。
另一方面,随着精准医疗概念的提出,基因测序及相应的数据处理技术越来越多的开始从实验室走向临床。和实验室不同,临床对于数据处理的时效性要求高,比如希望基因测序和数据处理像验血一样可以在一个小时内拿到试验结果。但现实是,基因数据在测序仪上测序需要数小时到一天的时间,而分析数据并得到分析报告又需要耗费约一天的时间,这样的时效性对其临床应用造成了较大的阻碍。而分析过程缓慢的原因之一就是当前的数据分析软件大多不能很好的利用计算机集群的多节点并行扩展计算模式。
需要注意的是,和传统的高性能计算不完全一样的是,基因测序数据处理流程是一个计算密集的数据处理任务,其应对的数据量也极大。例如,Illumina最新的Novaseq运行1天就能产生6TB的数据量,而中国在2018年就有多家企业拥有多台Novaseq测序仪,数据产出量达到了每天数十TB的量级。如此海量的数据的存储和处理的整个流程都是需要优化的IT解决方案来应对,因此基因测序数据处理是一个大数据加高性能计算的应用场景,需要应用大型存储系统。
对于基因测序数据而言,特别是基于二代基因测序技术的测序数据,大多是双端测序数据,即:测序结果数据是保存在两个文本文件中的。其中一个文本保存的是一端的测序结果,另外一个文本保存的是另外一端的测序结果。两个文本中的数据有很大的相关性。以具体的格式来说,文本文件中每4行对应于一条DNA序列的测序结果;而两个文本文件中相同位置的数据对应于同一条DNA序列的两端测序结果。在储存文件时,我们总是期望相关联的数据被存放在存储系统中相同的节点上以便于读取,而现有技术的存储方案无法保证这一点。考虑到基因数据处理时,主流的处理软件如BWA、bowtie等,需要同时读入两个文本数据的对等位置来进行处理。因此在运行上述程序时,就需要先在不同节点中找到两个文件的对等数据来进行处理,这必然带来了额外的时间消耗和网络通信需求。
针对现有技术中不支持在相同节点上存储相关联的基因测序数据,导致工作耗时长、效率低、网络通信需求高的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基因测序数据存储方法与装置,能够对不同基因测序数据或不同类型的基因测序数据来执行高相关性存储,降低基因测序处理时间、提高基因测序并降低网络压力。
基于上述目的,本发明实施例的一方面提供了一种基因测序数据存储方法,包括以下步骤:
分别将相对端的两个测序文件分割为多个数据块,并根据多个数据块向名称节点发送存储两个测序文件的请求;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811463734.8/2.html,转载请声明来源钻瓜专利网。