[发明专利]基于高通量分型的高密度遗传图谱的构建和评价有效
申请号: | 201310449422.2 | 申请日: | 2013-09-24 |
公开(公告)号: | CN103525917A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 郑洪坤 | 申请(专利权)人: | 北京百迈客生物科技有限公司 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;G06F19/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王文君 |
地址: | 101300 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 通量 高密度 遗传 图谱 构建 评价 | ||
技术领域
本发明属于生物化学领域,具体涉及一种遗传工程数据图谱的构建方法,以及对图谱的评价方法。
背景技术
随着具有高通量、低成本、测序错误率低、测序读长短特点的新一代测序技术和生物信息学的发展,高通量标记开发逐渐成为性价比最高的分子标记开发方式。SLAF-seq、RAD-seq及GBS等简化基因组技术可在全基因组范围内进行分子标记开发和大规模分型,这些技术在不同物种的应用产生了海量标记分型数据,使得构建高密度遗传图谱成为可能,同时也对图谱构建所需的方法和软件提出了新的要求,而传统构图软件和方法在处理与测序深度相关的分型错误和分型缺失上表现乏力。
HighMap(高密度遗传图谱构建方法)是一种构建高密度遗传图谱的有效方法,利用高通量测序产生的群体大规模分型数据,基于生物信息学和统计方法进行海量分子标记的高效准确定位,根据生物学重组规律对测序分型错误和缺失进行高效纠错,以保证所构建遗传图谱的密度,质量和准确性。对于具有分型错误和缺失的高通量测序分型数据,HighMap通过抽样技术和数学算法解决传统方法作图效率低和准确性不高的问题,提高生物学分析的准确性,通过对群体高通量测序数据的高效利用,进一步降低成本,提高效率。对于高杂合群体,目前尚未见利用HighMap构建高密度遗传连锁图谱的报道。
发明内容
针对现有技术存在的不足,本发明提供一种基于高通量分型的高密度遗传图谱构建方法—HighMap,该技术首先采用SGS抽样技术对分子标记进行准确定位和快速排序,在此基础上利用KNN算法对高通量测序产生的具有分型噪音的数据进行纠错处理,进一步通过多轮次标记排序和分型纠错,进行不同物种不同遗传分离群体的高密度遗传图谱的高准确性、高通量构建。本发明所述方法可为遗传学领域研究提供高质量的遗传图谱,特别适用于高杂合分离群体的遗传图谱构建。
本发明的另一目的是提出一种遗传图谱的评价方法。
实现本发明上述目的技术方案为:
一种基于高通量分型的高密度遗传图谱构建方法,包括步骤:
1)通过高通量测序方法对遗传分离群体进行全基因组标记开发和分型,获得遗传分离群体的基因分型数据;
2)对两两标记进行遗传连锁检验,将分子标记划分为不同的连锁群,与目标物种的染色体建立对应关系;
3)利用SGS算法获得每个连锁群内标记的线性排序并计算相邻位点之间的遗传距离,基于SGS算法得到的标记顺序,利用KNN算法进行纠错和补缺失处理,终获得遗传图谱;
4)从标记排序和遗传图距估计的准确性两个角度,对所构建的遗传图谱进行全面评估,通过可视化方法直观展示最终所得遗传图谱的质量;
其中,所述遗传分离群体为性状分离群体,选自F1、F2、BC1、DH中的一种或多种目标性状分离的群体。
其中,所述步骤2)中,包括步骤a、构架二维棋盘表;b、统计分型频数;c、计算独立性检验统计量,进行连锁群划分,具体为:
a、根据每一标记位点可能的分型构建二维棋盘表,所述二维棋盘表为2×2、2×3、2×4、3×3、3×4或4×4的棋盘表;
b、统计每一个棋盘表中每种分型频数,其中R,C,T和O分别为行频数,列频数,总频数及每一棋盘表中每种分型的频数,并根据行频数,列频数,总频数计算每种分型出现的理论频数E:
E=R*C/T (1)
c、基于观测和理论频数,计算独立性检验统计量G:
d、最后确定检验统计量的自由度d,d为棋盘表的行数-1乘以棋盘表的列数-1,并通过下式转化为mLOD:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百迈客生物科技有限公司,未经北京百迈客生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310449422.2/2.html,转载请声明来源钻瓜专利网。