[发明专利]复杂核酸序列数据的处理和分析有效
申请号: | 201280029331.7 | 申请日: | 2012-04-13 |
公开(公告)号: | CN103843001B | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | R.卓马纳克;B.A.彼得斯;B.G.科尔马尼 | 申请(专利权)人: | 考利达基因组股份有限公司 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/24;C12Q1/68 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 闵丹 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂 核酸 序列 数据 处理 分析 | ||
1.分析生物体的基因组DNA的方法,该方法包括:
在一个或多个计算装置上接收与来自多个等分试样的基因组DNA的片段对应的多个读取结果,基因组DNA的每个片段用等分试样特异性标签序列标记,每个读取结果包含来自基因组DNA的片段的序列和等分试样特异性标签序列,其中每个等分试样包含小于单倍体基因组,且所述单倍体基因组等同于基因组DNA;
通过鉴定所述等分试样特异性标签序列,来确定是哪个等分试样给出了所述读取结果;
用所述一个或多个计算装置通过以下方法从读取结果产生定相序列:
鉴定与该生物的基因组中至少一个部分对应的多个杂合基因座;并
对所述多个杂合基因座定相,以产生第一单元型和第二单元型,所述定相使用能产生多个杂合基因座相应读取结果的等分试样来确定该杂合基因座上哪些等位基因位于相同的单元型上,所述定相序列对应于该生物的基因组中至少一个部分;和
用所述一个或多个计算装置产生第一单元型和第二单元型的装配序列,所述装配序列在70%或更大的基因组响应率时在每兆碱基中包含少于1个假单核苷酸变体。
2.根据权利要求1所述的方法,其中对多个杂合基因座的定相包括:
对至少三个杂合基因座定相,并
将与所述第一单元型和第二单元型的所述至少三个杂合基因座的定相不一致的第一基因座上的第一序列变体鉴定为误差(error),所述第一序列变体出现在属于第一单元型且包含第二序列变体的等分试样中。
3.根据权利要求1所述的方法,其中对至少70%的所述杂合基因座定相。
4.根据权利要求1所述的方法,其中对于包含短串联重复的区域,所述方法进一步包括:
确定所述区域中第一单元型的读取结果的第一数目;
确定所述区域中第二单元型的读取结果的第二数目;
将第一数目与第二数目进行比较;并
基于所述比较,鉴定所述短串联重复在所述第一单元型或所述第二单元型中的扩充。
5.根据权利要求1所述的方法,其进一步包括:
用一或多个计算机装置产生多个与所述基因组的重叠区配对的装配序列,所述重叠区中的每一装配序列对应于不同的等分试样,其中所述多个杂合基因座包括N个杂合基因座,其中N是大于1的整数;
其中对所述多个杂合基因座的定相包括:
基于各个装配序列在所述N个杂合基因座上的多个等位基因,将所述装配序列聚簇在2N至4N种可能性的空间,由此创建多个簇;
鉴定两个具有最高密度的簇。
6.根据权利要求5所述的方法,其中所述对杂合基因座的定相包括:
计算N维矩阵,每个维度对应于一个杂合基因座,其中每个矩阵要素对应于多个装配序列,所述装配序列具有对应于该矩阵要素的多个等位基因的组合;
鉴定第一矩阵要素和第二矩阵要素,它们各自是两个簇之一的中心;
从所述第一矩阵要素确定N杂合基因座的第一单元型;
从所述第二矩阵要素确定N杂合基因座的第二单元型。
7.根据权利要求1所述的方法,其中所述生物体是二倍体哺乳动物,所述方法还包括:
用所述定相序列产生所述第一单元型和第二单元型的装配序列,其中所述装配序列包含70%或更大的外显子组响应率。
8.根据权利要求7所述的方法,其中所述装配序列在每千兆碱基中包含少于600个假单核苷酸变体。
9.根据权利要求7所述的方法,还包含:
响应所述装配序列一个位置处的碱基,是基于两个或更多个等分试样在该位置处的初步碱基响应来进行;和
将两个或更多个等分试样的读取结果中出现3次或更多次的碱基响应鉴定为真的。
10.根据权利要求1所述的方法,其中对多个杂合基因座的定相包括:
对多个成对杂合基因座中的每一个:
确定成对杂合基因座上各个等位基因之间共有的多个等分试样的矩阵,所述成对杂合基因座位于彼此指定的距离内。
11.根据权利要求10所述的方法,其中对多个杂合基因座的定相还包括:
用每个矩阵计算各对杂合基因座的分数和方向;和
用所述分数和方向来确定第一单元型和第二单元型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于考利达基因组股份有限公司,未经考利达基因组股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280029331.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置