[发明专利]一种检测胎儿染色体非整倍体的方法及系统有效
申请号: | 201510976494.1 | 申请日: | 2015-12-21 |
公开(公告)号: | CN105483229B | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 杨呈勇;甘海燕 | 申请(专利权)人: | 广东腾飞基因科技股份有限公司 |
主分类号: | C12Q1/6883 | 分类号: | C12Q1/6883 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 张会雪 |
地址: | 528437 广东省中山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 胎儿 染色体 整倍体 方法 系统 | ||
1.一种去除不受实验操作影响的基因组不同区段之间由自身碱基组成不同造成的测序深度偏差的方法,其特征在于:该方法包括如下步骤:
1)、大量正常孕妇血样的游离DNA进行高通量测序,获取各样品的多核苷酸片段的碱基序列信息,又称读段;
2)、将各样品测序所得的碱基序列与人基因组参考序列进行比对,获取序列的在基因组上的位置信息;
3)、根据各样品的比对结果,去除由文库构建和上机测序中的PCR扩增导致的重复读段,去除低质量读段,去除未比对到基因组的读段及比对到多个位置的读段,得到唯一比对读段;
4)、将各样品的唯一比对读段数均归一化为10M,按照读段比对后的位置信息将其分配到基因组各染色体以20K等长划分的非重叠区段,统计分配到各区段上的读段数;
5)、去除高变区段,然后进行GC校正;
6)、计算所有检测样品的各染色体上的同一区段对应的读段数的中位数,计算公式如下:
其中i表示第i个区段,Countin表示第n个样品对应的第i个区段的读段数;
7)、根据上一步得到的结果,计算每条染色体每个区段对应的读段数的中位数的中位数;计算公式如下:
其中m为区段个数;
8)、每个区段对应的读段数的中位数与上一步所得的对应染色体的区段的读段数的中位数的中位数之间的差值即为区段的偏移基线;
9)、对待测样本各染色体划分的等长区段进行偏移校正,即利用上述步骤得到的偏移基线与其对应的每条染色体划分的等长区段所分配的片段数进行相应的调整;
countnorm=countgc+bin_offset
其中countgc表示区段GC校正后对应的读段数,bin_offset表示区段对应的偏移校正值,countnorm表示区段偏移校正后的对应的读段数。
2.根据权利要求1所述的方法,其特征在于:所述的高变区段指的是区段的波动幅度超过所有区段平均波动幅度的三倍的区段。
3.根据权利要求1或2所述的方法,其特征在于:所述的GC校正指的是:Fan和Quake提出的去除GC偏差效应的方法;所述Fan和Quake提出的去除GC偏差效应的方法指的是:首先将整个染色体划成20kb片段大小的非重叠区域,进而计算每个区域内各测序序列的GC含量;根据不同的GC含量,以0.1%为单位,对所有具有相同GC含量的区段取其读段数平均值Mi,其中忽略没有读段,GC含量为0,以及读段数过多的区段,同时对每个GC含量所对应的区段给予一个权重为所有区段的读段数平均值,最后对每个区段乘以相应的权重以改善映射到每个区段的读段数目;
根据z_score计算公式,计算每条染色体与其他常染色体的z_score,
其中μ为染色体上分布的各大区段的读段数的中位数;σ为染色上分布的各大区段的读段数的标准方差;N为大区段的个数;j,k分别代表两条不同的染色体,其中性染色体除外;
取这些z_score的中位数即为检测样本该染色体对应的z_score,具体公式如下
z_scorel=median(z_scorel,1,z_scorel,2,…z_scorel,21,z_scorel,22但不包括z_scorel,l)>3,(l=1,2,...,21,22)表示第l号染色体为非整倍体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东腾飞基因科技股份有限公司,未经广东腾飞基因科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510976494.1/1.html,转载请声明来源钻瓜专利网。