[发明专利]基因组性染色体非同源区域的鉴定方法和装置有效
申请号: | 202110746653.4 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113205857B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 周勋;赵勇;陶琳娜;苏亚南;王龙 | 申请(专利权)人: | 天津诺禾致源生物信息科技有限公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 路秀丽 |
地址: | 301700 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 染色体 同源 区域 鉴定 方法 装置 | ||
本申请提供了一种基因组性染色体非同源区域的鉴定方法和装置。该鉴定方法包括获取XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据,各个体的测序深度为第一测序深度;获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;分别计算XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据与组装基因组的比对结果中每个contig或scaffold测序深度,分别记为第二测序深度和第三测序深度;第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或scaffold是性染色体非同源区域。利用两种性别个体的reads深度共同鉴定的非同源区域更准确。
技术领域
本申请涉及基因组组装领域,具体而言,涉及一种基因组性染色体非同源区域的鉴定方法和装置。
背景技术
每一个物种的参考基因组序列(reference genome)的产生都要先通过测序的方法,获得基因组的测序读段(reads),然后再进行从头拼接或组装(英文名称为de novogenome assembly),最后还原测序物种的各条染色体的序列,即ATGC四种碱基的排列顺序。
由于目前的高通量测序技术虽然通量较高,但读段较短,无法直接测序获取一整条染色体的序列。其中,一代测序(Sanger测序)一般可测1kb左右的序列;二代测序(next-generation sequencing),一般可测50~500bp;三代测序虽然可测100kb甚至更长的序列,但现在三代测序技术的测序错误率相对较高。
目前基因组测序数据的从头组装过程简单描述为:测序读段(reads)----重叠群(contig)----支架(scaffold)----染色体(chromosome)。具体地,基因组测序产生reads,然后基于reads之间的重叠的区域,对reads进行组装产生长片段的重叠群(contigs),再确定contig的方向和顺序,进一步组装产生更长的片段支架(scaffolds),最后再组装连接scaffold得到完整的染色体序列。
其中,contig是由多个reads通过重叠的区域进行组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装需要先组装成多个contigs。
进一步地,方向和顺序已经确定的多条contig序列连接形成的更长的片段,称为scaffold。scaffold的获得一般主要通过双端测序(如paired-end sequencing或mate-pair sequencing)或者bionano光学图谱技术来确定contig的顺序和方向,以及contig之间的间隔距离。
基因组从头组装过程中,应用二代测序数据结合三代测序数据能够将基因组初步组装到contig水平,通过Hi-C技术(High-through Chromosome conformation capture,高通量测序与染色体构型捕获相结合的技术)能够基于染色体内部互作关系将基因组挂载至近染色体水平,目前已发表的大部分基因组均能够达到近染色体水平,而性染色体非同源区域在组装过程中往往不能进行有效区分。
性染色体分为XY基因型和ZW基因型,所有哺乳类动物、多数雌雄异株植物、昆虫、某些鱼类及两栖类动物的性别决定方式为XY基因型。ZW基因型普遍存在于鳞翅目昆虫、两栖类、爬行类和鸟类之中。XY基因型中,XX基因型为雌性,XY基因型为雄性。ZW基因型中,ZW基因型为雌性,ZZ基因型为雄性。
由于X、Y染色体之间,Z、W染色体之间存在大段同源区段,使得在基因组组装到染色体水平中,性染色体XY基因型的Y染色体,ZW基因型的W染色体,只能组装出部分片段,在进行hic挂载时,对于XY基因型或者ZW基因型的个体,性染色体只能挂载出单条X染色体或Z染色体,相应的Y或者W染色体因存在大量的同源区域,目前的组装技术并不能有效的进行挂载,非同源区域会存在于未挂载的contig片段中,目前已发表的基因组未能将存在于contig片段中性染色体的非同源区域鉴定出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津诺禾致源生物信息科技有限公司,未经天津诺禾致源生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110746653.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法以及系统
- 下一篇:多传感器的数据融合方法、装置及相关设备