[发明专利]一种二代和三代序列联合组装结果去冗余的方法和装置有效
| 申请号: | 201710606833.6 | 申请日: | 2017-07-24 |
| 公开(公告)号: | CN110021359B | 公开(公告)日: | 2021-05-04 |
| 发明(设计)人: | 邓天全;高强;杨林峰 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
| 主分类号: | G16B30/20 | 分类号: | G16B30/20 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 潘登 |
| 地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 二代 序列 联合 组装 结果 冗余 方法 装置 | ||
1.一种二代序列和三代序列联合组装结果去冗余的方法,其特征在于,包括如下步骤:
(1)根据基因组组装结果,划分和获取短序列和长序列;
(2)将所述短序列和长序列进行比对,获得比对结果;
(3)整合短序列比对结果,获得冗余序列;
(4)去除冗余序列,获得组装结果;
步骤(3)所述整合短序列比对结果具体包括:筛选小于等于设定错配数的短序列;
所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
步骤(3)所述的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
2.根据权利要求1所述的方法,其特征在于,步骤(1)划分短序列和长序列以500-1000bp为阈值进行划分。
3.根据权利要求2所述的方法,其特征在于,步骤(2)所述比对采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基因组组装包括采用二代序列组装、三代序列补洞和二代序列补洞;
所述二代序列组装具体包括:使用软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
所述软件为SOAPdenovo和/或Platanus;
三代序列补洞和二代序列补洞具体包括:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
5.一种二代序列和三代序列联合组装结果去冗余的系统,其特征在于,包括:
划分模块,用于根据基因组组装结果,划分和获取短序列和长序列;
比对模块,与所述划分模块相连,用于将所述短序列和长序列进行比对,获得比对结果;
整合模块,与所述比对模块相连,用于整合短序列比对结果,获得冗余序列;
输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果;
所述整合模块进行比对具体包括:筛选小于等于设定错配数的短序列;
所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
所述整合模块中得到的冗余序列为所述筛选得到的小于等于设定错配数的短序列;
所述系统还包括组装模块和补洞模块;
所述组装模块用于使用SOAPdenovo和/或Platanus软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
所述补洞模块与所述组装模块相连,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
6.根据权利要求5所述的系统,其特征在于,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分。
7.根据权利要求5或6所述的系统,其特征在于,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710606833.6/1.html,转载请声明来源钻瓜专利网。





