[发明专利]CYP21A2基因NGS数据分析的方法、装置及应用在审
申请号: | 202111057946.8 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113724791A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 刘风侠;孙隽;周梅珍;许莹硕;樊春娜;王垚燊;彭智宇 | 申请(专利权)人: | 天津华大医学检验所有限公司;华大生物科技(武汉)有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B20/50;G16B20/30;G16B20/20 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 李小焦;彭家恩 |
地址: | 300000 天津市天津自贸区(空港经*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | cyp21a2 基因 ngs 数据 分析 方法 装置 应用 | ||
1.一种CYP21A2基因NGS数据分析的方法,其特征在于:包括以下步骤,
拷贝数变异分析步骤,包括获取待测样本的高通量测序数据,对芯片捕获区域设定窗口长度并设置滑动窗口,记录每个芯片捕获区域设定窗口的起始终止坐标,计算平均深度和GC含量,对每个样本每个染色体的窗口深度-GC含量进行路易斯回归,得到GC校正深度,在修正后的样本深度上,重新按参数设置芯片捕获区域设定窗口长度和滑动长度,取窗口深度,对GC校正后的窗口深度进行批次修正,计算相关系数,同时进行质控去除低质量样本,根据修正后的窗口深度用隐马模型对每个窗口的拷贝数进行估计,对异常拷贝数的异常窗口,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,用于计算平均后验概率,达到设定的阈值则输出,否则过滤掉,对获取的拷贝数变异片段进行注释输出,获得拷贝数变异分析结果;
点突变分析步骤,包括通过人类参考基因组上CYP21A2基因和CYP21A1P基因的序列比对,找出全部真假基因差异位点,输出真假基因差异位点的位置以及对应位置处的碱基,获得真假基因差异位点表,将待测样本比对到真假基因的序列全部比对回真基因,查找在绝大多数样本都存在的变异,核对确认属于真假基因的待测样本的差异位点,添加到所述真假基因差异位点表中;以待测样本的差异位点信息为基础,标记热点突变,在比对文件里查找热点位置处序列ID,同时记录成对序列的比对位置,在循环热点附近一定区域的比对文件中查找出标记的热点位置序列的配对序列,解析每一对的序列,定位突变的点突变或者插入缺失的位置,对照所述真假基因差异位点表,确认在目标位点以及其他辅助的真假基因差异位点的碱基,确认这些除目标位点之外的碱基属于真基因还是假基因,以此来确认这些序列属于真基因还是假基因,对于属于真基因的序列,再判定目标位点属于突变还是真基因原始碱基,从而确认真基因目标位点为突变或者没有突变;
真基因碱基比例提示信号分析步骤,包括对真假基因每个差异位点的真基因碱基比例进行统计;对于单碱基差异位点,直接统计真假基因位置处各种碱基的数目,然后合并一起计算真基因碱基的比例,以及总的深度;对于插入缺失,如果假基因对于真基因来说是插入,在真基因位置处统计插入和非插入的参考序列的数目,在假基因处则统计没有突变和缺失突变的序列数目,将两部分的统计结果合并在一起,计算真基因碱基序列的数目和比例;统计同一种panel的若干样本,计算正常样本均值以及标准差,根据正态分布的概率计算小概率阈值,对于待测样本利用拷贝数变异分析步骤的结果作为校正因子,换算正常拷贝的真基因碱基比例,与设定的阈值作比较,如果小于阈值预示存在突变;
检测信息整合统计步骤,包括整合统计不同方式检测的点突变在每个样本里的数目,作为片段突变拷贝数变异的辅助;最终获得待测样本基于NGS数据的CYP21A2基因的拷贝数变异和点突变信息。
2.根据权利要求1所述的方法,其特征在于:还包括高通量测序数据过滤步骤;
所述高通量测序数据过滤步骤,包括将高通量测序获得的原始数据进行过滤,过滤原则包括:过滤去除碱基质量值≤10的碱基个数占序列中总碱基比例50%的序列、平均质量20的序列,以及N碱基个数10%的序列,过滤后获得高质量的高通量测序数据。
3.根据权利要求1所述的方法,其特征在于:所述高通量测序数据的目标区域平均测序深度不低于100×,全基因组测序深度不低于40×。
4.根据权利要求1-3任一项所述的方法,其特征在于:所述拷贝数变异分析步骤中,连续异常窗口的数目达到设定的阈值数,则将连续异常窗口连成一个拷贝数变异片段,其中,所述阈值数为5;
优选的,所述点突变分析步骤,还包括,统计支持突变和支持参考序列的reads数目,以此确定突变的支持reads数目和比例,将支持reads数目大于或等于2,比例大于或等于10%,位点序列支持reads数目大于20条,的突变位点作为阳性突变位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津华大医学检验所有限公司;华大生物科技(武汉)有限公司,未经天津华大医学检验所有限公司;华大生物科技(武汉)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111057946.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置