[发明专利]基因组组装方法、装置、设备及存储介质有效
| 申请号: | 202210311761.3 | 申请日: | 2022-03-28 |
| 公开(公告)号: | CN114694755B | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 王莹;卢宇彤;陈志广 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B20/00 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 薛福玲 |
| 地址: | 510275 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基因组 组装 方法 装置 设备 存储 介质 | ||
本申请公开了一种基因组组装方法、装置、设备及存储介质,包括:获取基因短序列,以及确定第一分割值;基于所述第一分割值,将所述基因短序列进行分割,得到各基因子序列;基于预设分组并行正则采样排序算法,对各所述基因子序列进行全局排序,得到各排序基因子序列;基于各所述排序基因子序列,构建分布式基因图;并行遍历所述分布式基因图,得到各连续基因序列,并对各所述连续基因序列进行填充组装,得到各目标连续基因序列;确定第二分割值,若所述第二分割值大于预设最大分割阈值,则将各所述目标连续基因序列进行组装,得到基因组组装结果。本申请解决了基因组组装计算复杂度高导致组装效率低的技术问题。
技术领域
本申请涉及基因组组装技术领域,尤其涉及一种基因组组装方法、装置、设备及存储介质。
背景技术
现有的对二代测序数据进行从头组装的基因组组装算法主要是采用德布鲁因图结构,但是,为了提高基因组组装的效率,通常采用并行正则采样排序算法对德布鲁因图结构进行排序,然而随着进程数的增加,每个进程的采样点数量也随之增加,并且整个算法的采样点数量呈平方增长,并且现有的基因组组装算法在遍历时,每个进程都要随机选一个顶点作为其所在基因片段的种子,向前向后两个方向延伸找出完整的基因片段,可能会出现两个进程选择的不同的初始顶点属于同一基因片段的情况,而且,随着逐步往外延伸,一条基因片段所经过的顶点分散在大量进程中,计算复杂度高,进而导致基因组组装效率低。
发明内容
本申请的主要目的在于提供一种基因组组装方法、装置、设备及存储介质,旨在解决现有技术中的基因组组装计算复杂度高,导致组装效率低的技术问题。
为实现上述目的,本申请提供一种基因组组装方法,所述基因组组装方法包括:
获取基因短序列,以及确定第一分割值;
基于所述第一分割值,将所述基因短序列进行分割,得到各基因子序列;
基于预设分组并行正则采样排序算法,对各所述基因子序列进行全局排序,得到各排序基因子序列;
基于各所述排序基因子序列,构建分布式基因图;
并行遍历所述分布式基因图,得到各连续基因序列,并对各所述连续基因序列进行填充组装,得到各目标连续基因序列;
确定第二分割值,若所述第二分割值大于预设最大分割阈值,则将各所述目标连续基因序列进行组装,得到基因组组装结果。
本申请还提供一种基因组组装装置,所述基因组组装装置为虚拟装置,所述基因组组装装置包括:
获取模块,用于获取基因短序列,以及确定第一分割值;
分割模块,用于基于所述第一分割值,将所述基因短序列进行分割,得到各基因子序列;
全局排序模块,用于基于预设分组并行正则采样排序算法,对各所述基因子序列进行全局排序,得到各排序基因子序列;
构建模块,用于基于各所述排序基因子序列,构建分布式基因图;
并行遍历模块,用于并行遍历所述分布式基因图,得到各连续基因序列,并对各所述连续基因序列进行填充组装,得到各目标连续基因序列;
组装模块,用于确定第二分割值,若所述第二分割值大于预设最大分割阈值,则将各所述目标连续基因序列进行组装,得到基因组组装结果。
本申请还提供一种基因组组装车载设备,所述基因组组装车载设备为实体设备,所述基因组组装车载设备包括:存储器、处理器以及存储在所述存储器上的基因组组装程序,所述基因组组装程序被所述处理器执行实现如上述的基因组组装方法的步骤。
本申请还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储基因组组装程序,所述基因组组装程序被处理器执行实现如上述的基因组组装方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210311761.3/2.html,转载请声明来源钻瓜专利网。





