[发明专利]确定菌群SNP位点集合的方法、系统及其应用有效
| 申请号: | 201810368491.3 | 申请日: | 2018-04-23 |
| 公开(公告)号: | CN108504750B | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 李生斌;王帅;李静迪;梁雪 | 申请(专利权)人: | 深圳华大法医科技有限公司 |
| 主分类号: | C12Q1/6888 | 分类号: | C12Q1/6888;G16B20/20 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
| 地址: | 518083 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 确定 snp 集合 方法 系统 及其 应用 | ||
1.一种确定菌群SNP位点集合的方法,其特征在于,所述菌群SNP位点集合用于特定人群的个体鉴定,包括:
(1)将来自于待测样本的测序结果与参照基因组序列进行比对,所述测序结果由多个测序序列构成,去除MAPQ值低于10的所述测序序列,以便确定能够与所述参照基因组序列比对上的所述测序序列,所述待测样本为肠道菌群基因组DNA,
(2)基于步骤(1)所获得的测序序列,确定SNP位点分型,
(3)基于步骤(2)所获得的SNP位点分型,确定所述SNP位点集合,以及
(4)对所述SNP位点集合进行验证,所述SNP位点集合的最大DNA频率小于1/(7*109),所述DNA频率代表了SNP集合的基因型组合出现的频率,
其中,基于步骤(2)所获得的SNP位点分型,确定所述SNP位点集合是通过如下步骤获得的:
a.选取至少在75%样本中都出现的SNP位点,作为初始SNP位点集合,所述样本为步骤(1)所获得的测序序列所在的样本,
b.去除所述初始SNP位点集合中不符合哈温平衡的SNP位点,以便获得第一SNP位点集合,
c.保留所述第一SNP集合中邻近SNP较为稀疏的位点,所述稀疏的位点为前后至少300bp范围内,SNP个数都少于10,以便获得第二SNP位点集合,
d.依据第二SNP位点集合中的SNP位点的多态性和随机匹配率,获得第三SNP位点集合,所述SNP位点的多态性数目等于2以及随机匹配率小于0.8是所述SNP位点进入第三SNP位点集合的指示,所述SNP位点的随机匹配率是依照公式确定的,
其中,PM表示SNP位点的随机匹配率,k表示SNP位点的基因型个数,Pn表示所述SNP位点第n个基因型的基因型频率,
e.依据第三SNP位点集合的SNP位点的随机匹配率,获得所述SNP位点集合,所述随机匹配率最小的至少80个SNP位点组成所述SNP位点集合,
其中,所述步骤b是通过如下方式实现的:
对所述初始SNP位点集合的每个位点分型进行卡方检验,以便获得符合哈温平衡的SNP位点分型,所述符合哈温平衡的SNP位点分型组成所述第一SNP位点集合。
2.根据权利要求1所述的方法,其特征在于,预先将所述待测样本的测序结果进行过滤和去污处理。
3.根据权利要求1所述的方法,其特征在于,所述参照基因组序列为Metagenome参考基因组数据集。
4.根据权利要求1所述的方法,其特征在于,所述DNA频率小于等于1.748e-56是所述SNP位点集合为目的SNP位点集合的指示。
5.根据权利要求1所述的方法,其特征在于,所述稀疏的位点为前后至少350bp范围内。
6.根据权利要求1所述的方法,其特征在于,所述稀疏的位点为前后至少400bp范围内。
7.根据权利要求1所述的方法,其特征在于,所述稀疏的位点为前后至少450bp范围内。
8.根据权利要求1所述的方法,其特征在于,所述稀疏的位点为前后至少500bp范围内。
9.根据权利要求8所述的方法,其特征在于,所述随机匹配率最小的至少90个SNP位点组成所述SNP位点集合。
10.根据权利要求8所述的方法,其特征在于,所述随机匹配率最小的至少100个SNP位点组成所述SNP位点集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大法医科技有限公司,未经深圳华大法医科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810368491.3/1.html,转载请声明来源钻瓜专利网。





