[发明专利]一代基因测序中自动识别杂合突变的方法有效
申请号: | 201911403408.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111161801B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 杨琦;张未波;李孝尧;施笑蕾;濮娜;张国福;陈炜炜;柯路;童智慧;李维勤 | 申请(专利权)人: | 杨琦 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/20 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 陆海天 |
地址: | 210000 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一代 基因 测序中 自动识别 突变 方法 | ||
本发明涉及一种一代基因测序中自动识别杂合突变的方法,包括以下步骤:S1将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位;S2计算各整数点位上各个碱基检出信号强度包络面积;S3将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;S4在所述的每个整数点位分组内各自确定用于识别杂合突变的面积差阈值和面积比阈值;S5使用噪声识别算法标识出被测序列中的噪声整数点位集合;S6根据其所在的整数点位分组确定面积差阈值和面积比阈值;计算该整数点位的面积最大的两种碱基的面积差和面积比,判定突变。本发明可提升杂合突变的识别效率及准确率,降低人工成本。
技术领域
本发明涉及一种基因测序结果分析方法,尤其是一种可自动识别其中杂合突变的方法,具体的说是一代基因测序中自动识别杂合突变的方法。
背景技术
现有的一代基因测序(Sanger测序法)结果缺乏成熟的杂合突变自动化识别技术,均须通过人工识别,导致杂合突变识别的效率及准确率低下,而人力及时间成本则非常高昂.严重影响了基因测序的发展,亟须改进。
发明内容
本发明的目的是针对现有技术的不足,提供一种一代基因测序中自动识别杂合突变的方法,大大提升杂合突变的识别效率及准确率,降低人工及时间成本,具有广泛的应用前景
本发明的技术方案是:
一种一代基因测序中自动识别杂合突变的方法,包括以下步骤:
S1 将一代基因测序结果中各个碱基的检出信号数据转换为横坐标为正实数点位,纵坐标为对应碱基检出信号强度值的坐标序列;其中,所述正实数点位的单位为bp;
S2 基于所述各个碱基的坐标序列,计算各个碱基在各整数点位左右各0.5bp区间中的碱基检出信号强度点曲线与横坐标轴所围图形的面积,作为各整数点位上各个碱基检出信号强度包络面积;
S3以各整数点位上各碱基检出信号的最大包络面积作为分类依据,将各整数点位分组,使得每个分组内各碱基检出信号的最大包络面积数值相接近;
S4 依据杂合突变基因中出现频率的统计特征及发生杂合突变的整数点位左右各0.5bp区间中的图形特征,在所述的每个整数点位分组内,各自确定用于识别杂合突变的面积差阈值和面积比阈值;
S5 使用噪声识别算法标识出被测序列中的噪声整数点位集合;
S6针对不在噪声整数点位集合中的每个整数点位,根据其所在的整数点位分组确定面积差阈值和面积比阈值;根据该整数点位各个碱基检出信号强度包络面积,计算该整数点位的面积最大的两种碱基的面积差和面积比,若其面积差小于面积差阈值且面积比小于面积比阈值,则该点位判定为疑似杂合突变。
优选的,所述步骤S1包括以下步骤:
S1.1 读取各类碱基对应的检出信号强度值所构成的正有理数序列,以下简称为检出序列;
S1.2读取当前整数点位所在的检出序列下标;所述点位的单位为bp;所述下标为正整数;
S1.3 求当前整数点位与前一整数点位中的检出序列的下标差,取其倒数作为前一整数点位到当前整数点位的数据点位,简称为步进单位值;该步进单位值为正有理数;单位为bp;
S1.4 横坐标从前一点位开始,按下标顺序取出检出序列数据,该数据为正有理数;
S1.5将检出序列数据作为纵坐标,以累加S1.3求出的步进单位值作为其横坐标,直至下个整数点位前;将这些横坐标和纵坐标对应的点所构成的序列推入坐标序列末尾;
S1.6若当前整数点位尚未超过被测序列长度,则将当前整数点位加一后返回S1.3步骤继续。若当前整数点位达到被测序列长度,则此时就获得了完整的坐标序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨琦,未经杨琦许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911403408.2/2.html,转载请声明来源钻瓜专利网。