[发明专利]用于多序列文件的签名-散列在审
申请号: | 201880022918.2 | 申请日: | 2018-03-28 |
公开(公告)号: | CN110476215A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 约翰·扎卡里·桑伯恩;斯蒂芬·查尔斯·本茨;拉胡尔·帕鲁勒卡尔 | 申请(专利权)人: | 南托米克斯有限责任公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30 |
代理公司: | 11413 北京柏杉松知识产权代理事务所(普通合伙) | 代理人: | 王春伟;刘继富<国际申请>=PCT/US |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 散列 非线性标度 组学 等位基因频率 等位基因 结果构建 元数据 字符串 标头 优选 | ||
1.一种为组学数据集生成散列的方法,该方法包括:
在组学数据集中鉴定各个所选位置中的多个单核苷酸多态性(SNP);
测定该多个SNP的等位基因频率,并基于这些等位基因频率给该多个SNP分配各自的值;并且
生成输出文件,该输出文件包括该多个SNP的值,并且进一步包括与这些所选位置有关的元数据。
2.如权利要求1所述的方法,其中该组学数据集包括原始序列读数。
3.如前述权利要求中任一项所述的方法,其中该组学数据集具有以下格式,该格式选自SAM格式、BAM格式和GAR格式的组。
4.如前述权利要求中任一项所述的方法,其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。
5.如前述权利要求中任一项所述的方法,其中这些值基于非线性标度。
6.如前述权利要求中任一项所述的方法,其中这些值表示为十六进制值。
7.如前述权利要求中任一项所述的方法,其中该多个SNP的值在单个字符串中。
8.如前述权利要求中任一项所述的方法,其中该元数据位于单独的标头中。
9.如前述权利要求中任一项所述的方法,其中该元数据包括针对这些值的标度信息。
10.如前述权利要求中任一项所述的方法,该方法进一步包括将该签名-散列与该组学数据集相关联的步骤。
11.如权利要求1所述的方法,其中该组学数据集具有以下格式,该格式选自SAM格式、BAM格式和GAR格式的组。
12.如权利要求1所述的方法,其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。
13.如权利要求1所述的方法,其中这些值基于非线性标度。
14.如权利要求1所述的方法,其中这些值表示为十六进制值。
15.如权利要求1所述的方法,其中该多个SNP的值在单个字符串中。
16.如权利要求1所述的方法,其中该元数据位于单独的标头中。
17.如权利要求1所述的方法,其中该元数据包括针对这些值的标度信息。
18.如权利要求1所述的方法,该方法进一步包括将该签名-散列与该组学数据集相关联的步骤。
19.一种比较多个组学数据集的方法,该方法包括:
获得或生成第一组学数据集的第一签名-散列,并且获得或生成第二组学数据集的第二签名-散列;
其中该第一和第二签名-散列中的每个包括与该第二组学数据集的所选位置中多个SNP的等位基因频率对应的多个值,并且进一步包括与这些所选位置有关的元数据;并且
比较该第一和第二签名-散列的该多个值以确定相关性程度。
20.如权利要求19所述的方法,其中该第一和第二组学数据集具有以下格式,该格式选自SAM格式、BAM格式和GAR格式的组。
21.如权利要求19-20中任一项所述的方法,其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。
22.如权利要求19-21中任一项所述的方法,其中这些值基于非线性标度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南托米克斯有限责任公司,未经南托米克斯有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880022918.2/1.html,转载请声明来源钻瓜专利网。