[发明专利]用于测序读值的分组和折叠的系统和方法在审
申请号: | 201980042968.1 | 申请日: | 2019-10-29 |
公开(公告)号: | CN112534507A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 赵晨;凯文·埃里克·吴;斯文·比尔克 | 申请(专利权)人: | ILLUMINA公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;洪欣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 测序读值 分组 折叠 系统 方法 | ||
1.用于从核苷酸测序读值确定核苷酸序列的系统,所述系统包括:
非暂时性存储器,所述非暂时性存储器被配置为存储可执行指令和第一哈希数据结构,所述第一哈希数据结构用于将核苷酸测序读值存储在多个箱中;和
由所述可执行指令编程以执行包括以下步骤的方法的硬件处理器:
接收多个第一核苷酸测序读值;
对于每个第一核苷酸测序读值:
从所述第一核苷酸测序读值的第一标识符序列生成多个第一标识符子序列;
通过对所述多个第一标识符子序列应用哈希处理来生成所述第一核苷酸测序读值的第一名签;和
基于所述第一名签,将所述第一核苷酸测序读值分配到第一哈希数据结构的至少一个第一具体箱;以及
在一个或多个第一核苷酸测序读值被分配的情况下,确定第一哈希数据结构的每个第一具体箱的核苷酸序列。
2.如权利要求1所述的系统,其中分配所述第一核苷酸测序读值包括:
从第一核苷酸测序读值的第一名签确定第一名签的多个子序列;和
基于第一名签的子序列,将第一核苷酸测序读值分配到多个第一哈希数据结构中的每个第一哈希数据结构的第一具体箱。
3.如权利要求1所述的系统,其中分配所述第一核苷酸测序读值包括:
从第一核苷酸测序读值的第一名签确定第一名签的多个子序列;和
基于第一名签的多个子序列,将第一核苷酸测序读值分配到第一哈希数据结构的多个第一具体箱。
4.如权利要求1所述的系统,其中所述第一具体箱是所述第一哈希数据结构的已有箱,并且其中所述第一核苷酸测序读值和分配到所述第一哈希数据结构的所述第一具体箱的另一第一核苷酸测序读值的比对得分高于比对得分阈值。
5.如权利要求1所述的系统,其中所述第一具体箱是所述第一哈希数据结构的已有箱,并且其中所述第一核苷酸测序读值和分配到所述第一哈希数据结构的所述第一具体箱的任何第一核苷酸测序读值的最高比对得分高于比对得分阈值。
6.如权利要求1所述的系统,其中所述第一具体箱是所述第一哈希数据结构的新箱,并且其中所述第一核苷酸测序读值和分配到所述第一哈希数据结构的任何已有箱的任何第一核苷酸测序读值的比对得分低于比对得分阈值。
7.如权利要求1所述的系统,其中所述第一名签匹配所述第一哈希数据结构的所述第一具体箱的密匙。
8.如权利要求1所述的系统,其中所述第一名签和所述第一哈希数据结构的所述第一具体箱的密钥是相同的。
9.如权利要求1所述的系统,其中每个第一核苷酸测序读值与第二核苷酸测序读值相关联,并且其中第一核苷酸测序读值和第二核苷酸测序读值形成配对末端核苷酸测序读值。
10.如权利要求1所述的系统,其中确定所述核苷酸序列包括确定分配到所述第一具体箱的一个或多个第一核苷酸测序读值的共有序列。
11.如权利要求10所述的系统,其中确定所述共有序列包括将分配到所述第一具体箱的具有最高质量分数的第一核苷酸测序读值确定为所述第一具体箱的共有序列。
12.如权利要求1所述的系统,其中确定所述核苷酸序列包括选择分配到所述第一具体箱的所述一个或多个第一核苷酸测序读值的序列作为所述第一具体箱的代表性序列。
13.如权利要求1所述的系统,其中确定所述核苷酸序列包括确定分配到所述第一具体箱的所述一个或多个第一核苷酸测序读值中的两个的比对得分高于比对得分阈值。
14.如权利要求1所述的系统,其中所述多个核苷酸测序读值与相同的物理标识符序列相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于ILLUMINA公司,未经ILLUMINA公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980042968.1/1.html,转载请声明来源钻瓜专利网。