[发明专利]一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系有效
申请号: | 201810149895.3 | 申请日: | 2018-02-13 |
公开(公告)号: | CN110211639B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 陈华;赵石磊;马亮;石承民 | 申请(专利权)人: | 中国科学院北京基因组研究所 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B50/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王文君;王璐 |
地址: | 100101 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 群体 区分 鉴定 遗传 标记 参照系 构建 方法 | ||
本发明属于分子生物学和遗传学领域,具体公开了一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。所述构建方法包括对遗传标记数据进行数据分割和遗传标记挑选,或视情况对分割后的数据进行过滤,或对挑选后的遗传标记进行整合优化。采用本发明所述的方法可成功地使计算的复杂度从O(2supgt;n/supgt;)降低到O(nsupgt;2/supgt;)。结合一些简单的预筛策略,本发明所述方法可以处理成千人至万人的全基因组数据,从中挑选遗传标记参照系。在实际应用中,可根据实际需要用所述方法挑选既具有指定准确率(如95%或99%),又包含遗传标记数目较少的参照系。这些特性在在法医或医学遗传研究中具有重要应用价值。
技术领域
本发明属于分子生物学和遗传学领域,具体地说,涉及一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
背景技术
法医分析的重要任务之一就是明确个体的群体起源和类群来源,从而有效地缩小调查范围。在过去的几十年中,虽然很多类群特异性遗传标记不断被开发出来,然而仅仅个别几类被应用于实际法医检验。近年来,随着基因型分析技术和测序技术的飞速发展,大量的遗传数据涌现,为充分发掘分子遗传标记的应用潜能提供了机遇。事实上,多态性遗传标记已经被成功用于体貌特征的预测和地理来源和家系起源的推断。可以说,法医科学已经进入了“DNA智能”的新时代。
SNP标记是人类基因组中最丰富的遗传标记,平均1250个碱基中就有至少一个SNP位点。由于SNP标记的稳定性、在基因组中的丰富性以及其反映其变异的等位基因频率模式的完整性,SNP标记已成为群体鉴别最好的遗传标记。STR标记是另一类多态性遗传标记,前基因组时代在群体遗传分析和医学鉴定中最常用的遗传标记。由于其多态性高、等位基因丰富的特点,特别适合亲缘关系较近的群体和个体的区分识别。在当前法医学领域,STR标记是应用最广泛的遗传标记。
近几十年人类群体基因组学和疾病遗传学的研究已经积累了海量的SNP和STR数据资源,使得当前应用SNP和STR进行遗传分析的兴趣持续高涨。然而,很多法医遗传分析中所收集的DNA样品仅仅能满足少数遗传标记位点的遗传分析,很难满足全面的标记分析需要。因此,从海量基因组变异中挑选信息量高的少数SNP和STR位点作为参照系来满足特定的法医遗传分析需要就变得非常重要。
同时,近年来人类群体遗传学研究结果表明,上述基于少数遗传标记参照系的策略具有很高的可行性。相关研究发现大量的遗传变异在不同群体中共享,而仅仅一小部分遗传变异才具有群体特异性。这些群体特异性的遗传标记对个体祖源具有指示作用,然而这些位点在群体中的频率很低,因此很难用于类群的有效推断。在群体共享的常见的遗传标记中还存在一些SNP和STR位点,它们在不同群体中的等位基因频率显著不同,即表现为较高的FST值。这些位点也极具类群来源分析的潜力,可用于法医遗传分析,也是当前相关研究关注的焦点之一。此外,由于基因组水平的SNP和STR都处于连锁不平衡(linkagedisequilibria),因此,它们之间的遗传信息在一定程度上存在冗余;少数代表性的高信息丰度SNP或STR参照系即可有效揭示整个基因组水平的遗传差异情况,从而在有效地减少遗传分析中标记的数目同时又不大范围损失遗传材料所包含的信息。这些高信息丰度的遗传标记在法医和医学遗传分析中极具应用潜力。
已有一些研究采取经验性的方法从大规模基因组数据中挑选遗传标记参照系。然而,这类筛选方法步骤繁杂,而且无法保证所筛选的参照系包含了最优的,亦或接近最优的遗传标记组合。一种更高效的方法是从通过深入地搜索海量的基因组数据资源,从中挑选信息量最高的SNP和STR标记。然而,当前尚缺乏这类方法为法医调查服务。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种群体区分和鉴定的遗传标记参照系的构建方法及遗传标记参照系。
一个高效的遗传标记参照系应当同时满足一下两个条件:(1)对类群成员推断的准确性最大化,或者可以达到一个主观设定的准确性阈值;(2)在满足一个准确性阈值的情况下,使得遗传标记参照系中包含的遗传标记的数目最小化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院北京基因组研究所,未经中国科学院北京基因组研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810149895.3/2.html,转载请声明来源钻瓜专利网。