[发明专利]一种基于云计算平台Spark的变异检测方法有效
申请号: | 201710886300.8 | 申请日: | 2017-09-27 |
公开(公告)号: | CN107665291B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 董守斌;吴宗泽;袁华;付佳兵;张铃启 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G16B20/50 | 分类号: | G16B20/50 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 平台 spark 变异 检测 方法 | ||
本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
技术领域
本发明属于生物信息学技术领域,尤其是指一种基于云计算平台Spark的变异检测方法。
背景技术
近年来,随着第二代测序技术高通量测序技术(High Throughput Sequencing)的深入发展,人类个体测序的时间与成本已经减少到一个相对较低的水平。从原本每个碱基1美元的成本到现在1000~5000美元测序一套基因组,从耗时13年完成第一个人类基因组图谱到现在只需数星期的时间,人类基因组的研究已经进入了低成本高通量的测序时代。但是因为基因数据的急剧增长,海量数据也使得传统的基因处理软件有些无能为力,只有数据的获取速度和处理速度相匹配,才能更好地利用高通量测序技术带来的优势。
以参考序列为基准进行的个体或群体差异性分析被称为全基因组重测序(Resequencing)。研究人员通过全基因组重测序可以获得个体或群体的变异信息,包括单核苷酸多态(Single Nucleotide Polymorphism)、结构变异(Structure Variant)以及拷贝数变异(Copy Number Variant)等。其中结构变异细分为插入(Insertion)、删除(Deletion)、倒位(Inversion)、重复(Duplication)和移位(Translocation)。一般小段的插入和删除统称为InDel。后续这些变异信息可以用于临床医药研究、关联分析、群体遗传学研究等多种领域。全基因组重测序包括比对、重比对、去重、重校准、变异检测等步骤。变异检测步骤将中间的序列比对信息转换为最终的变异信息,是一个重要且耗时的步骤。
常用的变异检测工具有Samtools、FreeBayes、GATK UnifiedGenotyper、GATKHaplotypeCaller。在这些变异检测工具中,GATK的HaplotypeCaller工具因为其较高的准确性(特别是在InDel的检测),因此使用最为广泛。HaplotypeCaller算法主要包含四个步骤:1)定义活动区域(active region);2)通过活动区域的局部组装确定单倍体(haplotype);3)计算单倍体的似然性;4)分配样本的基因型。
当前主流的HaplotypeCaller多线程解决方案有GATK MapReduce、HugeSeqpipeline、Churchill pipeline等。但是GATK MapReduce适用于单节点,适用于共享存储的计算框架,不能较好地扩展到多个节点;HugeSeq pipeline按照染色体划分任务,而常规染色体中最长的染色体(chr1)的长度是最短的染色体(chrY)的4.2倍。如果考虑到众多未能完全匹配的染色体数据(如chr1_gl000191_random等),长度比最高可以达到58.5倍,因此按照染色体进行任务划分会导致负载较为不均衡;Churchill pipeline对染色体取长补短,将所有数据分割成定长的子染色体,对子染色体并行处理。但是它适用于FreeBayes、HaplotypeCaller等多个变异检测算法,并没有针对性地进行负载均衡处理,而HaplotypeCaller算法中,为了简化计算,其首先会检测其内较为可能有变异的activeregion(活动区域),并只对active region进行变异检测。因此即使输入数据长度一致,但是因为其内active region数量及其内序列数量的不同也会导致计算耗时有较大的区别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710886300.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可方便叠放的果蔬周转箱
- 下一篇:一种化妆品瓶