[发明专利]基于片段重叠群的含有重复基因的双面基因组片段填充方法和装置在审
| 申请号: | 202111310669.7 | 申请日: | 2021-11-05 |
| 公开(公告)号: | CN113889186A | 公开(公告)日: | 2022-01-04 |
| 发明(设计)人: | 柳楠;李胜华;朱永琦;崔晓宇;李晓峰;任燕;卞忠勇;李洋 | 申请(专利权)人: | 山东建筑大学 |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/00;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 250101 山东省济南*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 片段 重叠 含有 重复 基因 双面 基因组 填充 方法 装置 | ||
本发明公开了一种基于片段重叠群的含有重复基因的双面基因组片段填充方法及装置。该方法主要包括以下步骤:计算获得缺失基因集合;对最大缺失基因串分类,将基因元素分为三种类型:n‑Type‑1串、n‑Type‑2串和n‑Type‑3串,其中n为缺失基因串的长度;对最大缺失基因串与重复基因的关系分类,将基因元素与重复基因的关系分为三种类型:无相关、半相关和相关,无相关是指插入串与重复基因不相邻且插入位置与重复基因无涉及,半相关是指插入串与重复基因不相邻且插入位置可能会与重复基因有涉及关系,有无涉及插入位置替代,相关是指插入与重复基因相邻或插入位置与重复基因完全涉及;搜索无相关和半相关类型的插入串,执行无相关和半相关串插入算法;对相关类型串构造辅助图,利用回溯算法和最大匹配算法进行插入。该填充方法填充速度快,效率高。本发明基于片段重叠群进行基因组填充,能够提高填充准确率和完备率,更具有一般性和实用性。
技术领域
本发明技术方案为基于片段重叠群的含有重复基因的双面基因组片段填充的方法和装置,属于基因工程技术领域。
背景技术
早在上个世纪80年代,人类基因组计划就已经被提出,研究内容是遗传图谱、物理图谱、序列图谱和转录图谱的构建。近年来,全基因组测序已经引起广泛关注。虽然生物测序经历了第一代、第二代、第三代测序技术的发展,测试规模和测试速度有了很大提高,测序成本也大大降低,但是想要仅仅通过生物测序手段获得完整的全基因组序列仍是困难的。全基因组序列的获得是通过计算机相关技术即拼接算法将短小的基因片段组装成较大的基因片段。基因组的真实数据是由一系列连续的片段重叠群(contig)组成,通过确定基因组中所有片段重叠群的排列顺序以及每个片段重叠群之间的间隔距离,从而获得更大的基因结构--基因组框架(Scaffold)。
计算基因组学是一门运用计算机技术和信息技术对基因组研究数据进行分析、建模和计算,从中获取生物信息的学科。基因组片段填充问题是计算基因组学中一个新兴的组合优化问题。基因组片段填充问题是研究将缺失基因填充到不完整基因片段之后,计算填充后的基因片段间差异。其中,片段间差异类型是指:基因组重组距离、基因组抽样距离、断点距离、最小公共字符串划分距离、最大公共邻接距离等。基于片段重叠群的双面基因组片段填充,是前期基于普通序列的双面基因组片段填充的更一般形式。N.Liu等人通过对片段中断点分类、对缺失串类型分类,设计了一种采用贪婪策略的近似算法,近似比可以达到1.5;J.Ma 等人通过构造5-连通无爪图和7-连通无爪图寻找最大独立集,将近似比进一步提高到1.4。但是,这两种算法只能解决普通序列的双面基因组片段填充问题,无法应用在基于片段重叠群的双面基因组片段填充。目前,Li等人提出了基于片段重叠群的双面基因组片段填充算法,虽然只是基于一类实例,可也是对相关领域提供了重大参考价值。由于基因是大量且多变的,该算法并不能应用在基于片段重叠群的含有重复基因的双面基因组片段填充问题。
因此,如何解决基于片段重叠群的含有重复基因的双面基因组片段填充问题,并计算该问题的一个近似算法,成为目前该技术领域的热点问题。
发明内容
本发明的目的是针对现有技术存在的不足,提出一种新的基于片段重叠群的含有重复基因的双面基因组片段填充算法。通过大量研究与测试,本发明提出了一种基于回溯算法和最大匹配算法的双面基因组片段填充方法,设计了一个全新的近似算法,可以得到更为精确的基因组序列,同时提供了一项实现此项技术的装置,有利于日后基因组学领域的进一步研究和发展。
具体来说,第一方面本发明实施例提出了一种基于片段重叠群的含有重复基因的双面基因组片段填充方法,包括以下步骤:
步骤1:计算获得缺失基因集合;
将序列A和序列B中元素相互进行比较,可以得到序列A中缺失基因集合X,序列B中缺失基因集合Y。
步骤2:对最大缺失基因串分类。
基于基因样本序列中各个元素之间组合产生公共邻接的数目不同,将基因元素分为三种类型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111310669.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水车阀门专机用的同步夹具
- 下一篇:一种可拆卸的LED显示屏用组合式排线装置





