[发明专利]用于全基因组序列数据的从头组装的系统、方法和介质有效
| 申请号: | 201680083361.4 | 申请日: | 2016-08-19 |
| 公开(公告)号: | CN108779491B | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 大卫·杰夫;帕特里克·马科斯;迈克尔·史诺-莱文;尼尔·威森菲尔德 | 申请(专利权)人: | 10X基因组学有限公司 |
| 主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;C12P19/34;C04B40/06;C40B50/16;G01N33/68 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 贺淑东 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 基因组 序列 数据 从头 组装 系统 方法 介质 | ||
1.一种用于从生物体的核酸样品生成的核酸序列数据的从头基因组组装的计算机实现的方法,所述方法包括:
a)由一台或多台计算机生成基于短读取序列数据的初始组装体,其中所述初始组装体鉴定(i)多个k-聚体和(ii)一个或多个未解析的序列模糊性区域,其中所述短读取序列数据是从来自所述核酸序列数据的较长起始序列导出并被标记以保留所述生物体的长程序列环境,使得从共同起始序列导出的所述短读取序列数据的子集共享一个或多个共同标签;
b)由所述一台或多台计算机构建基于所述初始组装体的多个局部组装体和全局组装体,其中所述多个局部组装体和全局组装体通过下述构建:
(i)解析所述初始组装体以从所述多个k-聚体鉴定多个z-聚体,其中zk;
(ii)鉴定明确序列的边缘;
(iii)鉴定共享具有明确序列的多个所述一个或多个共享标签的相邻边缘,其中所述一个或多个共享标签的数目高于阈值;和
(iv)将所述明确序列的所述边缘与(iii)中鉴定的所述相邻边缘汇集在一起;
c)通过移除与由所述一个或多个共享标签指示的所述长程序列环境不一致的序列数据,由所述一台或多台计算机清除所述全局组装体;以及
d)通过利用所述一个或多个共享标签来分离定相的核苷酸序列,由所述一台或多台计算机生成基于所述全局组装体的定相的基因组组装体;
其中在不与参考序列或任何独立生成的基因组序列比对的情况下实现所述定相的基因组组装体。
2.如权利要求1所述的方法,其中所述基因组是二倍体。
3.如权利要求1所述的方法,其中从单个文库生成所述短读取序列数据。
4.如权利要求1所述的方法,其中所述短读取序列数据产生所述生物体的所述基因组的50x或更低覆盖率。
5.如权利要求1所述的方法,其中对所述短读取序列数据进行标记以保留在比读取段长2x–1000x的起始序列内的环境。
6.如权利要求1所述的方法,其中对所述短读取序列数据进行标记以保留在10kb–5Mb的起始序列内的环境。
7.如权利要求1所述的方法,其中所述初始组装体是初始组装图。
8.如权利要求7所述的方法,其中通过以下方式来生成所述初始组装图:
a)鉴定所述多个k-聚体,其中所述多个k-聚体在所述生物体的所述基因组中以高概率存在;
b)使用所述一个或多个共同标签来基于每个k-聚体出现于其中的起始序列的数量来过滤所述多个k-聚体;以及
c)将所述多个k-聚体中共享共同l-聚体的k-聚体汇集在一起以形成初始组装体,其中lk。
9.如权利要求8所述的方法,还包括:在生成所述初始组装体之前,由所述一台或多台计算机应用初步滤波器,其中所述初步滤波器包括:
a)利用来自用于生成所述短读取序列数据的序列分析仪的碱基质量得分,以及
b)利用出现超过一次的k-聚体和所述一个或多个共享标签,使得必须观察到每个k-聚体由两个不同的共同标签产生。
10.如权利要求9所述的方法,还包括由所述一台或多台计算机向所述质量得分和通过所述图的路径的每个记录应用无损随机存取压缩。
11.如权利要求8所述的方法,其中方法还包括通过以下方式由所述一台或多台计算机修订所述初始组装图:
a)基于序列模糊性区域内可供用于每种选项的多个读取段,消除一个或多个序列模糊性区域;以及
b)通过咨询原始短读取序列数据来填充所述初始组装图中的空位。
12.如权利要求8所述的方法,其中k是介于24与96之间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于10X基因组学有限公司,未经10X基因组学有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680083361.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:包含硫氰酸胍的杂交缓冲液
- 下一篇:数字蛋白质定量
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





