[发明专利]一种基因序列数据分析与在线交互可视化的方法在审
申请号: | 201710607539.7 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107451422A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 杨文婷 | 申请(专利权)人: | 杨文婷 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/26 |
代理公司: | 北京文苑专利代理有限公司11516 | 代理人: | 王炜 |
地址: | 225000 江苏省扬州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 数据 分析 在线 交互 可视化 方法 | ||
1.一种基因序列数据分析与在线交互可视化的方法,其特征在于,包括以下步骤:
步骤1)上传基因序列数据,填写对应信息;
步骤2)选择基因序列数据,进行单基因序列数据分析;
步骤3)选择多个单基因序列数据的分析结果,进行组合分析;
步骤4)查看组合分析的结果,导出报告;
步骤5)对分析结果进行可视化展示。
2.根据权利要求1所述的基因序列数据分析方法,其特征在于,所述步骤2)包括以下步骤:
步骤一:检测插入和缺失突变;
步骤二:检测插入和缺失突变的组合;
步骤三:检测结构突变;
步骤四:配对检测分析;
步骤五:检测PCR扩增序列;
步骤六:删除重复数据。
3.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法,其特征在于,所述步骤一具体为:当发现插入和缺失突变时,采用有监督的方法来读取错配的序列,将它们添加到插入和缺失突变的基因库中,来增加等位基因频率;而无监督的方法则是扫描软切片附近的局部序列以查找更多的插入和缺失突变,具体步骤为从在等位基因组位置剪切的软切片序列中查找共有序列,如果可以找到共有序列,则使用它来在自定义的距离内查找有无匹配的序列,此时允许小范围的不匹配误差。当在远离切片序列的位置发现匹配序列时,则认为检测到缺失类型的突变;当共有序列的端部匹配与软切片序列相邻时,即检测到插入类型的突变。
4.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法,其特征在于,所述步骤二具体为:将插入和缺失突变的组合视为一个基因突变,当检测到一个插入或者缺失突变中的一种时,在同一条序列中检测是否有另一种突变,如果有,则将它们组合,视为一种插入和缺失突变的组合。
5.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法,其特征在于,所述步骤三具体为:使用软切片序列的方法来构建共有序列,然后搜索该共有序列是否可以在给定5kb的敏感区域内唯一匹配;如果没有找到匹配项,将在不配对的序列区域中进行搜索;对于较大的结构突变,搜索范围以不一致的序列为准,在不一致的序列区域中进行搜索,识别另一个端点位置。
6.根据权利要求1、2所述的基因序列数据分析与在线交互可视化的方法,其特征在于,所述步骤四具体为:在配对样本分析时,给定两个BAM文件,提取突变和参考等位基因频率的计数次数,通过费舍尔精确检验确定突变是否在两个样本之间的等位基因频率有显著差异;基于等位基因频率差异,如果仅存在于第一个样本中,则将突变分类为“体细胞”,如果存在于两个样本中,则分类为“种系”,如果第二个样本中的突变是杂合的,但在第一个样本中是纯合的或没有突变,则为“杂合缺失突变”,如果仅存在于第二个样本中,在第一个样本中没有覆盖,则为“缺失型突变”。
7.根据权利要求1-2所述的基因序列数据分析与在线交互可视化的方法,其特征在于,所述步骤五具体为:首先对读取的序列与BED文件中提供的PCR扩增序列进行比较,确定读取的序列是否属于特定的PCR扩增;然后,只筛选与扩增具有90%相同并且落在扩增PCR边缘10bp内的那些序列对;在多个扩增覆盖的区域中,将区域内扩增中不能被检测出的突变认为是扩增偏置,并且作为PCR假阳性滤除。
8.根据权利要求1-7所述的基因序列数据分析方法,其特征在于,在所述步骤5)中,分析结果分为两种形式展示,一种是对分析结果以表格的形式进行展示,另一种是对分析结果进行统计后以各种形式统计图的形式展示。
9.根据权利要求1-8所述的基因序列数据分析方法,其特征在于,在所述步骤2)中,对于上传的基因序列数据,在存储器中构建不同的数据结构来表示不同类型的突变,使存储器所需的容量仅与该数据结构的大小有关,而不需要考虑测序深度;通过对降解最严重序列的区域进行一致性分析使本地运行和计算效率与测序深度、扩展线性深度成正比关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨文婷,未经杨文婷许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710607539.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小口径管道收口机管道平移夹持工装
- 下一篇:一种模具加工机械用缩口机
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置