[发明专利]高杂合基因组的组装方法有效
申请号: | 201410342295.0 | 申请日: | 2014-07-17 |
公开(公告)号: | CN104091097B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 张锦波;江文恺;李季;孙小庆;张晓杰;唐新春 | 申请(专利权)人: | 北京诺禾致源生物信息科技有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 100044 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高杂合 基因组 组装 方法 | ||
技术领域
本发明涉及生物技术领域,具体而言,涉及一种高杂合基因组的组装方法。
背景技术
DNA(脱氧核糖核酸)测序,是广泛应用于生物学研究中的一种重要的实验技术,在DNA双螺旋结构学说发表之后就开始有相关的报道,但是操作流程复杂而没有形成规模。在1977年,末端终止测序法在Sanger的研究努力下诞生了,该方法相对之前的方法既简便又快速,而且通过后续不断的改良,成为了2007年前DNA测序的主流。然而Sanger测序也存在自身的缺点,费用高、通量低和耗时长。因此随着科学技术的不断发展,借助于化学和物理等其他学科的技术更新,第二代测序技术开始逐渐取代Sanger测序的霸主地位,完成了一些模式生物重测序和非模式生物的基因组测序。
目前,第二代测序技术应用最广泛的是要以Illumina测序平台为基础的测序技术。边合成边测序是Illumina测序平台的基本原理,当DNA聚合酶合成互补链的时候通过添加不同的dNTP(脱氧三磷酸核苷酸)释放不同的荧光信号,通过捕捉和计算机软件处理这些荧光信号即可以获得测序中的DNA的序列信息。
利用第二代测序技术完成模式生物或非模式生物的基因组测序的过程基本包括以下步骤:
测序文库构建。首先提取待测物种二倍体体细胞的基因组DNA,然后将基因组DNA随机片段化,而在基因组测序中,会构建不同梯度的插入片段大小,以便提供更多片段信息进行后续的组装。
锚定桥接和预扩增。测序的反应是在Illumina测序平台的玻璃管中进行,单链接头被固定在表面,上一个步骤得到的基因组DNA片段经过变性成单链后与测序通道上的接头引物结合形成桥状结构。单链桥型待测片段会被扩增成双链桥型片段,在变性过程中释放出互补的单链会被锚定到附件的固相表面,数次循环之后,会在固相表面形成上百万条成簇分布的双链待测片段。
测序。在固相表面的每一个测序簇延伸互补链的时,每次加入一个被荧光标记的dNTP(脱氧三磷酸核苷酸)会发射出不同的荧光,Illumina测序仪通过接收这些荧光信号和将其用计算机软件处理后,就能准确地获得待测片段的序列信息。
数据处理。Illumina测序得到的序列的每一个碱基都会有相应的测序质量,测序质量低,说明该碱基测错的概率就大。因此,通常在基因组装之前对这些原始数据进行处理,通过设置不同的阈值过滤质量较低的序列。
基因组组装。通过将过滤得到的测序数据输入计算机软件中,例如已经发表的针对二代测序的组装软件SOAPdenovo,这些软件首先将测序的DNA片段进行打断及合并处理,通过序列相似性,构建出德布鲁因(de Bruijn)图结构,然后简化德布鲁因图,再利用序列之间的配对关系构建出基因组的组装序列结果。
现有的技术主要是针对简单基因组的,简单基因组是一般指杂合率不超过千分之五的基因组,例如哺乳类、鸟类和一般栽培作物。一般认为采用常规的组装方法组装杂合度高达0.5%的基因组序列时有一定难度,而杂合度高达1%以上的基因组序列则很难组装,例如一般的水产类基因组的杂合率一般超过百分之一,而这些高杂合位点在组装过程中构建的德布鲁因图难以得到简化,针对二代测序的组装软件会在这些高杂合位点断开,从而造成组装得到的序列过短,难以达到组装拼接的要求。因此,急需建立一种能够适应杂合率超过百分之一的高杂合基因组的组装方法。
发明内容
本发明旨在提供一种高杂合基因组的组装方法,以解决现有技术无法对高杂合基因组的测序数据进行组装拼接的问题。
本发明中的“高杂合基因组”是指杂合度高达1%以上的基因组。
为了实现上述目的,根据本发明的一个方面,提供了一种高杂合基因组的组装方法,该组装方法包括根据待测物种的体细胞基因组序列信息构建德布鲁因图的步骤、简化德布鲁因图的步骤、以及根据简化后的德布鲁因图,拼接得到高杂合基因组的组装序列的步骤,简化德布鲁因图的步骤包括以下步骤:对待测物种的生殖细胞的单细胞基因组进行测序;比对体细胞基因组的序列信息与生殖细胞的单细胞基因组的序列信息,找到体细胞基因组序列中的杂合位点的序列信息;以及根据杂合位点的序列信息,简化德布鲁因图。
进一步地,杂合位点的序列信息包括与生殖细胞的单细胞基因组的序列信息的亲本来源一致的杂合位点的序列信息和与生殖细胞的单细胞基因组的序列信息的亲本来源不一致的杂合位点的序列信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源生物信息科技有限公司,未经北京诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410342295.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用