[发明专利]一种快速分析真核生物蛋白质基因组学数据的方法有效
申请号: | 201810842695.6 | 申请日: | 2018-07-27 |
公开(公告)号: | CN108920898B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 葛峰;杨明坤;张珈;洪斌 | 申请(专利权)人: | 中国科学院水生生物研究所 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘奇 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种快速分析真核生物蛋白质基因组学数据的方法,属于蛋白质基因组数据分析方法技术领域。本发明提供的快速分析真核生物蛋白质基因组学数据的方法,采用原核生物多组数据整理方法和筛选方法得到II类可信肽段,再针对预测新基因、可变剪切体、点突变基因并校正已注释基因的结构的目的设计三种不同的回帖基因组的方法。本发明提供的方法适用于任何一个已经完成测序的真核生物,同时可变剪切体与点突变基因预测的方法,提高鉴定的覆盖度;采用不同的较为严格的假阳性控制策略,提高鉴定的可信度;从原始质谱数据到最后新基因、可变剪切体以及点突变基因的预测和校正已注释基因结构系列分析,真正实现真核生物质谱数据的快速鉴定分析。 | ||
搜索关键词: | 一种 快速 分析 生物 蛋白质 基因组 数据 方法 | ||
【主权项】:
1.一种快速分析真核生物蛋白质基因组学数据的方法,包括以下步骤:1)将组装后的转录组数据、EST序列和非编码RNA序列合并后进行三阅读框翻译,对基因组序列进行六阅读框翻译;根据三阅读框翻译结果和六阅读框翻译结果,构建蛋白序列数据库;对原始质谱数据进行格式转化得到转化后的质谱数据,对数据库检索参数定义;2)用四种不同算法的数据检索引擎对所述步骤1)中转化后的质谱数据进行数据库检索,得到检索结果;3)整合所述步骤2)得到的检索结果,将鉴定到的肽段通过氨基酸匹配回贴基因组,能够完全匹配到已注释编码基因结构区域的已知肽段定义为I类肽段,将不能匹配的新肽段定义为II类肽段;4)采用不同的假阳性概率计算方法,分别对所述步骤3)中的I类肽段和II类肽段计算,删除假阳性肽段,获得I类可信肽段和II类可信肽段;5)将所述步骤4)得到的II类可信肽段,利用氨基酸匹配的方法回帖至基因组,用于预测可变剪切体,预测点突变基因和预测新基因并校正已注释基因的结构;所述预测可变剪切体的回帖方法,包括以下步骤:①从II类可信肽段的第二个氨基酸开始,将肽段分割为供体序列和受体序列,通过氨基酸序列匹配,分别将所述供体序列和受体序列比对到所述步骤1)中构建得到的蛋白序列数据库中,若所述供体序列和受体序列能够完全匹配且分别往两端延伸60个氨基酸,获取第一延长供体序列和第一延长受体序列;②将所述第一延长供体序列和第一延长受体序列比对到基因组中,再从II类可信肽段的第三个氨基酸开始分割,并获得第二延长供体序列和第二延长受体序列,再比对到基因组中,以此类推,直至分割至II类肽段的倒数第三个氨基酸为止,获得不同的延长供体序列和终延长受体序列;所述不同的延长供体序列和终延长受体序列能够完全比对到基因组中,再根据蛋白索引文件,查找II类可信肽段在基因组中的起始和终止位置信息,预测得到新可变剪切体;所述预测点突变基因的回帖方法,包括以下步骤:将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库,将所述II类可信肽段分别往两端各延伸60个氨基酸,并将延长后的新肽段比对到基因组中,仅允许新肽段中发生1个氨基酸的突变,所述突变的位点位于II类可信肽段第二个氨基酸和倒数第三个氨基酸之间的任意一个氨基酸,根据蛋白索引文件,查找所述发生突变的II类可信肽段在基因组中的起始与终止位置信息,预测得到点突变基因;所述预测新基因并校正已注释基因结构的回帖方法,包括以下步骤:通过氨基酸匹配,将II类可信肽段比对到所述步骤1)中构建的蛋白序列数据库中,获取所述II类可信肽段所对应的全蛋白序列信息,根据蛋白索引文件,查找全蛋白序列在基因组中的起始与终止位置信息,预测得到新蛋白编码基因和校正已注释基因结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院水生生物研究所,未经中国科学院水生生物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810842695.6/,转载请声明来源钻瓜专利网。