[发明专利]基于低深度高通量基因组测序的染色体拷贝数变异检测装置在审
| 申请号: | 202011635354.5 | 申请日: | 2020-12-31 |
| 公开(公告)号: | CN112669901A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 张静波;王伟伟;李小雨;伍启熹;王建伟;刘倩;唐宇 | 申请(专利权)人: | 北京优迅医学检验实验室有限公司 |
| 主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B20/10;G16B30/00 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 孙怡 |
| 地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 通量 基因组 染色体 拷贝 变异 检测 装置 | ||
1.一种基于低深度高通量基因组测序的染色体拷贝数变异检测装置,其特征在于,所述装置包括:检测模块、数据质控模块、数据预处理模块、数据校正及处理模块和判断模块;
所述数据校正及处理模块:将待测样本基因组通过质控和窗口划分、归一化后获得的每个bin的ratio中的重复序列和群组CNV剔除后,进行进一步优化,并对排除母源污染后的候选CNV区域进行Z检验;
所述优化包括:
(1)根据待测基因组每条常染色体的平均ratio,计算绝对偏差的中位数MAD,剔除绝对偏差大于MAD值1倍的染色体,得到剩余的常染色体,再通过所述剩余的常染色体的bin的reads数的均值对全部染色体进行重归一化;
(2)性染色体处理:通过阈值来判断待测样本的性别,所述阈值由如下方法获得:统计大量流产组织样本的h,利用聚类算法,获得所述阈值;其中,h=2a/(1+a),a为待测样本X染色体与参考基因组hg19比对后唯一reads的比例与待测样本Y染色体与参考基因组hg19比对后唯一reads的比例之比;当判断待测样本为男性时,对其性染色体上每个bin的ratio进行如下校正:
ratiochrX_corrected=ratiochrX+median(ratioautosome)/2;
ratiochrY_corrected=ratiochrY+median(ratioautosome)/2;
其中,ratiochrX,ratiochrY分别代表性染色体X、Y上每个bin的ratio,ratiochrX_corrected,ratiochrY_corrected分别代表校正后的性染色体X、Y上每个bin的ratio,median(ratioautosome)代表步骤(1)中通过所述剩余的常染色体进行重归一化后的每个bin的ratio的中位数;
当判断待测样本为女性时,则忽略Y染色体信息;
将校正后的性染色体上每个bin的ratio与常染色体上每个bin的ratio一同进行下一步操作;
(3)对每个bin的ratio进行GC校正和mappability校正后,通过计算全部正常对照样本数据库中校正后的bin的ratio的均值和标准差,构建加权线性回归模型,权重为对应位置校正后bin的ratio的标准差,从而校正不同染色体基线带来的偏差,计算出的残差x,即为待测样本每个bin的ratio;
(4)针对常染色体和性染色体分别进行PCA降噪;
以正常对照样本数据库中的每一个阴性参考集样本的数据进行矩阵构建,具体以n个阴性参考集样本的m个bin构造一个n*m的矩阵X,其中每一项都是阴性参考集样本中bin的残差x,首先将X的每一行进行中心化,即减去每行的均值,计算中心化后矩阵X的协方差矩阵XXT,利用特征值分解矩阵得到特征值与特征向量W,将待测样本的残差x,构建1*e的矩阵T,旋转到相同的基上获得T',T'=TW,通过减去前k个主成分重建测试集x';e为待测样本的bin的个数,e=m;
在进行常染色体PCA降噪时,正常对照样本数据库中阴性参考集样本的男女性别比例无统计学差异;
在进行性染色体PCA降噪时,正常对照样本数据库中阴性参考集样本的性别仅对应为男性或女性;
k值的确定:
利用PCA降噪后数据的残差与降噪前数据的残差的比值计算信息损失量R,评估降噪后数据信息丢失的情况来确定k值,具体步骤如下:
将多例通过质控的已知核型结果的阳性样本基因组按100Kb进行窗口划分后合并临近窗口获得窗宽为2Mb的窗口,设置不同的k值,计算阳性区域的信息损失量R,损失量R的计算公式如下:
xi代表窗宽为2Mb时的bin的ratio的均值,x′i代表窗宽为2Mb时进行所述PCA降噪后bin的ratio的均值,n代表阳性区域为2Mb窗口的个数;当信息损失量R小于0.05时,所对应的k值最终用于待测样本的PCA降噪;
(5)采用CBS算法进行分割,根据每个segment的ratio确定候选CNV区域;
(6)排除母源污染:当chrX和chrY同时存在整条染色体异常时,且步骤(2)中校正后的X染色体的bin的ratio的均值和Y染色体的bin的ratio的均值之和接近0且校正后X染色体的ratio均值偏多时,则认为是母源污染导致的假阳;
所述Z检验包括:
将正常对照样本数据库中的每一个阴性参考集样本经数据校正及处理模块所述进一步优化,获得每个bin的ratio;分别计算每个阴性参考集样本与待测样本的分割片段相同的染色体区域的bin的ratio的均值,获得该染色体区域的ratio,之后再计算所有阴性参考样本在与待测样本的分割片段相同的染色体区域的ratio的均值和标准差,根据Z检验方法,计算得到待测样本的每个分割获得的染色体区域的Z值;
其中,Rsample代表待测样本分割获得的染色体区域的ratio,mean Rreference代表阴性参考集样本与待测样本相对应的染色体区域的ratio的均值,sd Rreference代表阴性参考集样本与待测样本相对应的染色体区域的ratio的标准差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优迅医学检验实验室有限公司,未经北京优迅医学检验实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011635354.5/1.html,转载请声明来源钻瓜专利网。





