[发明专利]一种快速分析真核生物蛋白质基因组学数据的方法有效
申请号: | 201810842695.6 | 申请日: | 2018-07-27 |
公开(公告)号: | CN108920898B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 葛峰;杨明坤;张珈;洪斌 | 申请(专利权)人: | 中国科学院水生生物研究所 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘奇 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 分析 生物 蛋白质 基因组 数据 方法 | ||
本发明提供一种快速分析真核生物蛋白质基因组学数据的方法,属于蛋白质基因组数据分析方法技术领域。本发明提供的快速分析真核生物蛋白质基因组学数据的方法,采用原核生物多组数据整理方法和筛选方法得到II类可信肽段,再针对预测新基因、可变剪切体、点突变基因并校正已注释基因的结构的目的设计三种不同的回帖基因组的方法。本发明提供的方法适用于任何一个已经完成测序的真核生物,同时可变剪切体与点突变基因预测的方法,提高鉴定的覆盖度;采用不同的较为严格的假阳性控制策略,提高鉴定的可信度;从原始质谱数据到最后新基因、可变剪切体以及点突变基因的预测和校正已注释基因结构系列分析,真正实现真核生物质谱数据的快速鉴定分析。
技术领域
本发明属于蛋白质基因组数据分析方法,具体涉及一种快速分析真核生物蛋白质基因组学数据的方法。
背景技术
随着人类基因组计划的完成,基因组测序技术也趋于成熟,越来越多的物种也相继完成了基因组测序。然而全基因组测序仅仅是解决问题的开始,从序列数据到生物本体,基因组的价值体现在其基因组的功能注释上。基因组的功能注释就是一个对基因组测序产生的原始DNA序列添加分析和阐释的过程,这种分析和阐释是理解其生物代谢过程和生物学意义所必需的。高质量的基因组注释是对基因组的序列组织特征,特别对基因和基因产物进行详细的识别和鉴定。
而在人类基因组计划完成的10年后,两个独立的研究组成功绘制了人类蛋白质组草图,这项研究利用蛋白质组学数据对基因组进行重注释,验证84%的预测编码蛋白,并发现808个新的蛋白编码区域,蛋白质组学直接用于基因组的注释已经越来越受到相关领域的关注,为基因组注释工作提供了新的研究方向-蛋白质基因组学(Proteogenomics)。与其它基因组注释手段相比,基于质谱的蛋白质组注释,不仅结合了原始的DNA和RNA序列,使得信息更为完整;还直接在蛋白质水平对基因编码的蛋白质产物进行分析鉴定;而一些在蛋白质组学层面特有的现象比如翻译后修饰、信号肽,对蛋白质功能研究非常重要,也是其他传统注释手段不可替代的。另外,基于蛋白质基因组学的策略可以被用在通过分析蛋白质水平来鉴定一些基于个体的序列变异导致的癌症,并确定其中最相关的变异上。
虽然目前蛋白质基因组学的研究发展较快,从2004年至今,蛋白质基因组学已经支持了几种重要的模式生物,以及大量的非模式生物,尤其是原核生物的基因组注释研究,但是也存在以下几个方面的问题:1)在数据库构建方面:相比于原核生物,真核生物基因组较大,直接使用其基因组构建数据库比较困难,以人类基因组为例,六阅读框翻译数据库大小约是传统蛋白质数据库的230倍左右;而转录组相比基因组,由于存在冗余,使其数据量则更大,使用从头组装的转录组建库,如何使用较好的存储结构来去除数据冗余性是非常值得研究的问题。2)数据质量控制问题,新肽段假阳率往往较高:目前绝大部分研究工作仅仅在谱图水平进行假阳性控制(FDR)从而直接获得鉴定蛋白质集合,且在假阳性控制方面仅采用全局FDR筛选,造成新肽段的实际假阳性率比较高。3)适用于真核生物的自动注释工具缺乏:目前的绝大多数蛋白质基因组学研究将重点放在新现象的解释上,并没有着眼于开发完整的流程支持更多研究的开展,尤其是真核生物,考虑到海量的质谱数据,使得数据的共享和传输非常不便,也极大地限制了蛋白质基因组学的推广。
目前,仍然缺乏完整的适用于真核生物蛋白质基因组学数据的鉴定分析方法,尤其是真核生物基因组特有的可变剪切存在,使得其基因注释更加复杂;此外,点突变基因的存在也增加了注释的复杂性。针对真核生物蛋白质基因组数据分析的软件包括:PGTools,QUILTS,GALAXY-P,PPLine,PoGo等;然而,这些软件设定的方法局限性比较高,或仅适用于人蛋白质基因组数据分析;或完全依赖于转录组预测可变剪切位点和点突变,而非基于蛋白质组数据直接鉴定;或仅支持数据统计,缺乏前期的数据处理与鉴定;或用户具有较深的蛋白质组学研究方面的背景,应用范围也受到很大的限制,并未实现数据的自动快速分析。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院水生生物研究所,未经中国科学院水生生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810842695.6/2.html,转载请声明来源钻瓜专利网。