[发明专利]一种基因序列数据分析与在线交互可视化的方法在审
申请号: | 201710607539.7 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107451422A | 公开(公告)日: | 2017-12-08 |
发明(设计)人: | 杨文婷 | 申请(专利权)人: | 杨文婷 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/26 |
代理公司: | 北京文苑专利代理有限公司11516 | 代理人: | 王炜 |
地址: | 225000 江苏省扬州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 数据 分析 在线 交互 可视化 方法 | ||
技术领域
本发明属于基因序列分析技术领域,具体涉及一种基因序列数据分析与在线交互可视化的方法。
背景技术
随着二代测序技术的成熟和完善,基因组测序在生物医学研究领域得到了广泛应用。以在肿瘤的基础研究和临床应用领域为例,研究人员可以利用不同来源的肿瘤组织或样本进行肿瘤发生及转移的机制研究、筛查肿瘤早期诊断或复发的标志物,或者结合临床数据,评估不同治疗方案下的早期治疗好坏、探索不同病人预后好坏的机制。
基因具有多样的突变特性,包括单核苷酸突变(SNV)、多核苷酸突变(MNV)、插入、缺失和复杂突变,以及更复杂的结构突变(SV),例如重复(DUP)、反转(INVs)、插入和易位。与癌症有关的基因如KRAS,NRAS,BRAF和EGFR通常包含错位突变。目前有很多分析和定位基因突变位点的算法和工具,如GATK开发的工具之一,UnifiedGenotyper,它是集合多种变异检测方法而成的一种突变检测工具,既可以用于单个样本的变异检测,也可以用于群体的变异检测。UnifiedGenotyper使用贝叶斯最大似然模型,同时估计基因型和基因频率,最后对每一个样本的每一个变异位点和基因型都会给出一个精确的后验概率。
现有的基因序列分析技术,是将一组基因序列数据比对之后进行目标区域突变检测,得到vcf格式的突变结果文件,对其进行各种注释,包括人群数据库频率注释,疾病数据库、变异危害度预测等等。完成之后,再进行分析与预测,如肿瘤体细胞突变分析、体细胞突变频率及突变频谱图、体细胞突变总览图、体细胞突变circos展示图、突变位点分布情况分析图、体细胞突变富集分析、肿瘤已知驱动基因突变检测、肿瘤驱动基因预测,等等。最后,将结果以表格和统计图的形式进行可视化展示。
许多已有的定位基因突变位点的算法和工具,如GATK,FreeBayes和VarScan等等只能用来分别定位单核苷酸突变和局部的插入和缺失突变,但当这些突变组合在一起时,则不能够准确解决定位和统计基因突变数。此外,TP53,PTEN,BRCA1/2,RB1,STK11和NF1等肿瘤上皮抑制因子通常含有大的基因片段插入和缺失突变或复杂的突变,有时甚至是结构性的突变,这些突变经常被上述算法工具遗漏。为了更全面地分析癌症基因组,需要能够识别所有这些不同类型突变的检测工具。此外,超临界测序越来越多地应用于临床环境中,它对于低等位基因频率突变的检测具有更强大的优势。常见的突变检测方法会随着覆盖深度的增加而计算性能弱化,通常会采取降采样(随机删除数据部分)的方法来提高它的计算性能。然而,降采样会显着降低检测低等位基因频率突变的敏感性。考虑到等位基因频率突变的随机性,在这种情况下采用降采样会遗漏很多信息。
另外,现有的突变检测方法和工具还存在下列局限性:
1.对等位基因频率的插入和缺失突变数量估计偏低;
2.不能检测较大的复杂的插入和缺失突变;
3.在非降采样的情况下,不能根据计算性能对深度覆盖进行有效评估。
目前对于分析结果的展示,只能静态地从一个角度来展示分析结果,当用户需要多角度分析一批基因序列数据的信息价值时,会十分不方便。以分析某种基因突变分布与性别、年龄的关系为例,用户需要先选中男性的基因序列数据进行分析,得到结果,再选中女性的基因序列数据进行分析并得到结果,二者对比来获得结论;然后,用户需要再选中不同年龄段人群的基因序列数据分别分析完成后再对比,才能获得结论。这样做的过程中,存在以下两方面的不足:一方面,同一个基因序列数据可能被重复分析了很多次,而分析一个基因序列样本往往需要几个小时,浪费了大量时间和分析资源;另一方面,操作不连续,非常不便于用户分析数据,当从多个角度分析时,用户需要不断重复选择数据-分析-选择数据-分析的循环,每次分析完成之后都要回到电脑前重新选择数据进行新一次的分析,而分析的过程又非常花时间,十分不方便。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基因序列数据分析与在线交互可视化的方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基因序列数据分析与在线交互可视化的方法,包括以下步骤:
步骤1)上传基因序列数据,填写对应信息;
步骤2)选择基因序列数据,进行单基因序列数据分析;
步骤3)选择多个单基因序列数据的分析结果,进行组合分析;
步骤4)查看组合分析的结果,导出报告;
步骤5)对分析结果进行可视化展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨文婷,未经杨文婷许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710607539.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小口径管道收口机管道平移夹持工装
- 下一篇:一种模具加工机械用缩口机
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置