[发明专利]突变检测分析的方法、设备、可读介质及装置有效
申请号: | 202210593582.3 | 申请日: | 2022-05-27 |
公开(公告)号: | CN114898803B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 鲍文娟;戴立忠 | 申请(专利权)人: | 圣湘生物科技股份有限公司 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G16B30/10;G16B40/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 胡亮;张颖玲 |
地址: | 410205 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 突变 检测 分析 方法 设备 可读 介质 装置 | ||
1.一种突变检测方法,其特征在于,包括以下步骤:
获得样本的测序数据和参考基因组序列;
对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息;
对所述得到的SNV位点信息和InDel位点信息进行过滤,得到过滤之后的数据;
对所述过滤之后的数据进行连锁分析,包括:
对同一个染色体上的位置在40bp内的两个目标突变进行两个特征值字符串化后的Levenshtein相似度计算,当两个相似度均大于0.8时,则认定所述两个目标突变为连锁;所述两个特征值分别为:包括所述目标突变的簇的reads数、包含所述目标突变的簇中支持该目标突变的reads数占比。
2.根据权利要求1所述的突变检测方法,其特征在于,所述对所述样本的测序数据和参考基因组序列进行比对,得到SNV位点信息和InDel位点信息,包括:
对每一个簇进行参考序列和突变序列重构;通过逐一比较重构的参考序列和突变序列之间的差异,得到SNV和InDel位点信息。
3.根据权利要求1所述的突变检测方法,其特征在于,所述对所述得到的 SNV位点信息和InDel位点信息进行过滤,得到过滤之后的数据,包括:
对所述SNV位点信息和InDel位点信息进行至少两次过滤,获得所述两次过滤之后的数据。
4.根据权利要求1所述的突变检测方法,其特征在于,对所述SNV位点信息和InDel位点信息进行第一过滤,得到第一过滤之后的数据;
其中,所述第一过滤的条件包括以下至少之一:
cluster含有突变碱基的质量值低于设置值,设置值为20;
突变支持reads处于末端占当前cluster总reads数一半以上;
当前cluster中reads数大于预设值,预设值设定范围为5-10,且突变支持reads数小于2;
当前cluster中reads数大于预设值,预设值设定范围为8-20,且突变支持reads数小于3。
5.根据权利要求1所述的突变检测方法,其特征在于,对所述SNV位点信息和InDel位点信息进行第二过滤,得到第二过滤之后的数据;
其中,所述第二过滤的条件包括以下至少之一:
突变仅有正链或负链支持;
突变正负链比值超过预设值,预设值设定范围为5-10倍;
突变支持reads数少于预设值,预设值设定范围为5-40;
对于位于重复区域的突变,突变支持reads数预设值,预设值设定范围为10-50;
对于位于重复区域的突变,突变占比小于预设值,预设值设定范围为0.05-0.15。
6.根据权利要求1所述的突变检测方法,其特征在于,所述对所述过滤之后的数据进行连锁分析,满足连锁分析的条件,进入Levenshtein相似度计算;
所述连锁分析的条件包括:
包括突变的所有cluster数目中位于正链的个数=3;
包括突变的所有cluster数目中位于负链的个数=3;
突变支持reads数大于预设值,预设值设定范围为20-60;
突变频率大于0.01。
7.根据权利要求1~6中任一所述的突变检测方法,其特征在于,所述Levenshtein相似度计算公式如下:
其中当ai=bj时,为0,否则为1;leva,b(i,j)就是a的前i个字符与b的前j个字符的编辑距离;
a、b的相似度Sima,b为Sima,b=1-(leva,b(|a|,|b|)/max(|a|,b|));
其中,a,b是两个数组,i/j是数组下标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于圣湘生物科技股份有限公司,未经圣湘生物科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210593582.3/1.html,转载请声明来源钻瓜专利网。