[发明专利]一种基于参考基因组和从头组装相结合的二代测序数据组装方法在审
申请号: | 201510706400.9 | 申请日: | 2015-10-27 |
公开(公告)号: | CN105303068A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 陈玲玲;孙帅;焦文标;徐锡文;宋佳明 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 肖平安 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 基因组 从头 组装 相结合 二代 序数 方法 | ||
1.一种利用参考基因组获得基因组编码信息的方法,其特征在于,取待测样品,利用二代测序方法测序,获得未处理的编码数据;将测序得到的未处理的编码数据经过以下步骤处理:
(1)对测序读段数据进行预处理;
(2)使用短序列比对工具将处理过的读段比对到参考基因组,然后根据比对结果来统计基因组每个位点的覆盖度,基因组平均覆盖度和覆盖率;
(3)根据参考基因组位点的覆盖度,定义连续覆盖的区域为区块;将小区块合并成大区块,并且相邻大区块设置重叠区;
(4)对于大区块内的读段,进行重头组装,将组装结果的重叠群序列输出;
(5)使用序列组装工具进一步处理,去除重叠冗余的区段;
(6)再经过构建支架序列、填补空缺、校正组装错误步骤,获得基因组编码信息。
2.根据权利要求1所述的利用参考基因组获得基因组编码信息的方法,其特征在于步骤(5)以后,进一步采用可变长度末端序列唯一匹配的方法来定位序列在参考基因组序列上的起始位置,所在序列称为查询序列,进行局部重组装,将局部重组装得到的序列与相邻序列连接。
3.根据权利要求2所述的利用参考基因组获得基因组编码信息的方法,其特征在于1)使用NUCmer软件将所有查询序列比对到参考基因组上;2)筛选末端的比对序列,包括开始末端和结束末端。
4.根据权利要求2到3所述的利用参考基因组获得基因组编码信息的方法,其特征在于,采用可变长度末端序列唯一匹配的方法定位了重叠群在参考基因组序列上的起始位置后,提取一条重叠群的末端位置到相邻的另一条重叠群始端位置内加上下游各一定长度,优选100-500bp,更优选200bp范围内的读段;使用CAP3组装读段,得到组装的序列;然后,将局部重组装得到的序列与相邻的两条重叠群比对,设定比对长度和相似性的阈值,用该序列来连接相邻的重叠群。
5.根据权利要求2到4任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于将可以组装出基因组特异性序列的从头组装获得的基因组序列与采用基于参考基因组组装的基因组序列整合起来,从而获得连续性好、完整性好的基因组序列。
6.根据权利要求1-5任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于步骤(6)所述的构建支架序列,填补空缺,校正组装错误步骤,指的是利用二代测序读段获得的重叠群序列,使用SSPACE和/或OPERA工具,来构建支架序列;使用gapCloser来填补空缺;使用iCORN软件校正基因组组装错误碱基,来获得准确率更高的基因组。
7.根据权利要求1-6任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于步骤(3)中,所述的将小区块合并成大区块,并且相邻大区块设置重叠区,指的是如果相邻区块之间的距离小于50-300bp之间的某一设定数值,则将其合并;如果有读段两端分别位于相邻的两个区块内部,则将这两个区块合并;对于长度小于20-200KB之间的某一设定值的区块,将它与其相邻的区块合并成大区块,直到大区块长度大于所设定的数值,并且相邻大区块设置长度为1-5KB之间的某一设定值的重叠区。
8.根据权利要求1-7任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于步骤(4)中所述的从头组装指的是利用SOAPdenovo或者ZORRO软件进行局部从头组装,组装过程中循环尝试不同的参数,选取重叠群N50最大的参数,并将其组装结果重叠群序列输出。
9.根据权利要求1-8任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于步骤(5)所述的使用序列组装工具进一步处理,去除重叠冗余的区段,指的是使用AMOS工具对上一步得到的重叠群序列进一步组装,去除不同重叠群之间可能存在的重叠冗余的区段。
10.根据权利要求1-9任一项所述的利用参考基因组获得基因组编码信息的方法,其特征在于,所述的步骤(3)中,划分区块和大区块的时候,可以使用下列方法中的一种:
(a)基于读段在基因组比对的“断点”来划分区域;
(b)基于读段聚类和读段在基因组比较信息来划分区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510706400.9/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用