[发明专利]分子水平上的系谱重建的装置和方法有效
申请号: | 201410371632.9 | 申请日: | 2014-07-30 |
公开(公告)号: | CN104134016B | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 闫军;张彦丽;吴俊;张莹莹;吴成琼 | 申请(专利权)人: | 北京诺禾致源科技股份有限公司 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 100044 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分子 水平 系谱 重建 装置 方法 | ||
技术领域
本发明涉及生物技术领域,具体而言,涉及一种分子水平上的系谱重建的装置和方法。
背景技术
随着二代测序技术的发展,全基因组水平上IBS(Identity by state)和IBD(Identity by decent)检测已广泛应用于系谱内样品遗传关系分析领域。目前基于全基因组变异检测的IBS和IBD检测方法已经比较成熟,例如广泛使用的Plink、Beagle fastIBD、GERMLINE等和最新发表的Beagle refinedIBD、IBDseq、HapFABIA等。但是这些方法主要应用于对人类等高等哺乳动物的研究中,例如根据系谱关系和IBD数据研究不同种族人类的亲缘关系,从而推断人类进化历史;或根据IBD数据反推系谱结构,然后进行系谱重建。
不同于人类等高等哺乳动物群体,对于植物学研究来说,在遗传育种领域,自交为育种的常规手段,由此产生了许多自交产生的系谱群体;另外,由于某些原因往往难以获得一个系谱内全部样品的数据,影响了系谱的连贯和完整性。因此,目前为止,对以上所述复杂系谱在DNA分子水平上进行遗传关系的重建尚无有效的方法可用。
发明内容
本发明旨在提供一种分子水平上的系谱重建的装置和方法,以解决现有技术中无法重建植物分子水平上的系谱的缺陷。
为了实现上述目的,根据本发明的一个方面,提供了一种分子水平上的系谱重建的方法,该方法包括以下步骤:对系谱内所有样品两两进行染色体比对,得到所有样品中两两相比所得的相同染色体区段信息;根据所有样品中两两相比所得的相同染色体区段信息,对全基因组进行遗传区块划分,得到多个不同类型的遗传区块;根据每个遗传区块的类型的不同,对系谱内的所有样品进行遗传区块组划分,得到多组遗传区块样品组;根据系谱中各样品间已知的遗传关系,对每组遗传区块样品组中的每个样品的遗传区块的遗传起源进行推断,得到系谱内所有样品的遗传区块的遗传起源;从而完成分子水平上的系谱重建。
进一步地,系谱为自交多代产生的系谱、回交多代产生的系谱或者部分样品的数据缺失的系谱。
进一步地,当系谱为部分样品的数据缺失的系谱时,方法在得到多组遗传区块样品组步骤后,还包括对数据缺失的部分样品的遗传区块的类型进行推断的步骤。
进一步地,对数据缺失的部分样品的遗传区块的类型进行推断的步骤中,当数据缺失的部分样品的双亲、配偶及子一代的遗传区块类型都存在时,推断的原则是:如果子代的遗传区块类型与配偶的遗传区块类型不同,而与双亲中其一的遗传区块类型相同,那么数据缺失的部分样品的遗传区块类型与子一代的遗传区块类型相同;如果子代的遗传区块类型与配偶的遗传区块类型相同,且双亲的遗传区块类型相同,那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同;当数据缺失的部分样品的双亲的遗传区块类型不存在时,推断的原则是:如果子代的遗传区块类型与配偶的遗传区块类型不同,那么数据缺失的部分样品与子代的遗传区块类型相同;当数据缺失的部分样品的子一代的遗传区块类型不存在时,推断的原则是:如果双亲的遗传区块类型相同,那么数据缺失的部分样品的遗传区块类型与双亲的遗传区块类型相同;当数据缺失的部分样品的双亲之一和子一代的遗传区块类型存在时,推断的原则是:如果双亲之一的遗传区块类型和子一代的遗传区块类型相同,那么数据缺失的部分样品与双亲之一和子一代的遗传区块类型相同。
进一步地,系谱为单一直系同源系谱或由直系同源系谱和非直系同源系谱构成的系谱。
进一步地,当系谱为由直系同源系谱和非直系同源系谱构成的系谱时,方法还包括:在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之前,按照直系同源关系对非直系同源系谱进行系谱拆分的步骤;以及在对多组遗传区块样品组中的每个样品的各遗传区块的遗传起源进行推断之后,对非直系同源系谱进行系谱整合的步骤。
进一步地,系谱拆分的步骤中拆分的原则是:拆分后的直系同源系谱尽可能少,且非直系同源系谱间的重叠样品也尽可能少,优选重叠样品为1个。
进一步地,对非直系同源系谱进行系谱整合的步骤中根据系谱内每个样品对应一个标记名称的原则,对系谱内每两个具有重叠样品的非直系同源系谱进行系谱整合;重复系谱整合的步骤,完成系谱内所有具有重叠样品的非直系同源系谱之间的系谱整合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京诺禾致源科技股份有限公司,未经北京诺禾致源科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410371632.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用