[发明专利]样本数据集合的构建方法及其遗传出生地预测方法在审
| 申请号: | 201811177713.X | 申请日: | 2018-10-10 |
| 公开(公告)号: | CN109473142A | 公开(公告)日: | 2019-03-15 |
| 发明(设计)人: | 郑强;陈钢;李鹰翔;胡振飞;庄喆 | 申请(专利权)人: | 深圳韦格纳医学检验实验室 |
| 主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B25/10;G16B40/20;G16B50/00 |
| 代理公司: | 深圳市徽正知识产权代理有限公司 44405 | 代理人: | 李想 |
| 地址: | 518000 广东省深圳市坪山区坪*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本数据 构建 遗传 成分集合 集合 预测 族群 标注 应用 样本 标签 采集 拓展 | ||
本发明实施例公开了一种遗传出生地样本数据集合的构建方法及其遗传出生地预测方法。该构建方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。该遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用,更好的利用了SNP分型中包含的信息,具有良好的应用前景。
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法。
背景技术
SNP是单核苷酸多态性(Single Nucleotide Polymorphism)的简写,是指基因组上单个核苷酸变异,即A、T、C、G四种碱基的互相改变,形成基因组上同一位置会有多种碱基存在的多态性。
SNP基因分型指的是确定SNP的碱基对类型,除了未检出情况,总共有4*4=16种可能结果。基因分型的不同,可能导致样本的表型不同。
SNP在人群中广泛存在,多态性丰富,是很好的遗传标记物。尤其高通量的SNP检测方法出现之后,被广泛用于生物信息学的分析。
在实现本发明过程中,发明人发现相关技术存在以下问题:随着技术的发展成熟,目前由微阵列芯片、二代测序等都可以快速地对DNA样本进行 SNP分型,但是如何针对性的利用SNP分型结果进行信息分析,挖掘其中的隐含的数据,应用于其它场景仍然有待研究。
发明内容
针对上述技术问题,本发明实施例提供了一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法,以解决现有技术中对SNP分型结果信息缺乏有效利用的问题。
本发明实施例的第一方面提供一种遗传出生地样本数据集合的构建方法。所述方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。
可选地,所述祖源成分集合通过如下方法获得:获取若干个不同族群对应的参考SNP分型;将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。
可选地,所述样本数据的祖源成分中,所述祖源成分集合中的每个族群所占的成分比例之和为1。
可选地,所述祖源成分集合包括北方汉族、南方汉族、高山族群以及藏族。
可选地,所述祖源成分集合包括至少42个族群。
可选地,通过线上调查问卷,确定所述样本数据的祖籍地。
可选地,所述遗传出生地样本数据集合包括若干条标注数据,每一条标注数据包括根据SNP分型确定的祖源成分及祖籍地。
可选地,所述方法还包括:将所述遗传出生地样本数据集合中的至少一部分标注数据作为训练集,并且将剩余的标注数据作为测试集;所述测试集和训练集之间的标注数据数量比例为0.2比0.8。
本发明实施例的第二方面提供一种遗传出生地预测方法。该方法包括:应用如上所述的遗传出生地样本数据集合的构建方法构建获得的遗传出生地样本数据集合计算待测样本属于不同祖籍地的概率;根据所述概率生成所述待测样本的遗传出生地预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳韦格纳医学检验实验室,未经深圳韦格纳医学检验实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811177713.X/2.html,转载请声明来源钻瓜专利网。





