[发明专利]一种蛋白质翻译后修饰的定位方法及系统有效
申请号: | 201410360277.5 | 申请日: | 2014-07-25 |
公开(公告)号: | CN104134015B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 罗兰;孙瑞祥;迟浩;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 翻译 修饰 定位 方法 系统 | ||
1.一种蛋白质翻译后修饰的定位方法,包括:
步骤1)、对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;
步骤2)、将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为有向无环图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;
步骤3)、根据路径上所有顶点的权值选择所述有向无环图中的路径,并且将该路径转换为修饰位点信息;
在所述步骤2)中,按照以下步骤连接有向无环图中的顶点:
对于相邻的氨基酸对应的两个修饰集合B、B’,其中B’是后一个氨基酸对应的修饰集合,如果B=B’,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边;或者
如果B’=B∪{x},并且修饰x属于所述一个或多个修饰组合并且能够发生在B’对应的氨基酸上,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边。
2.根据权利要求1所述的方法,在步骤2)中,根据顶点对应的蛋白质的N端和C端离子与谱图中谱峰的匹配结果设置该顶点的权值。
3.根据权利要求2所述的方法,其中,按照以下步骤设置顶点的权值:
步骤A)、根据与所述蛋白质序列对应的谱图中谱峰的质量建立哈希表M,以及计算所述顶点对应的蛋白质的N端和C端离子的质量并且向下取整;其中,哈希表M中的第i个元素表示质量为i,其元素值表示质量为i的谱峰的编号;
步骤B)、对于取整后的N端和C端离子的质量,查询与其中每个质量匹配的谱峰;其中,查找与一个质量m匹配的谱峰包括:
查询哈希表M得到第m个元素和第m+1个元素所对应的谱峰的编号M[m]和M[m+1],如果在M[m]和M[m+1]之间存在质量在m的允许误差范围内的谱峰,则质量m有匹配上的谱峰;
步骤C)、如果取整后的N端和C端离子的质量均有匹配上的谱峰,则将所述顶点的权值设置为2;如果取整后的N端和C端离子的质量的其中一个有匹配上的谱峰,则将所述顶点的权值设置为1;否则设置为0。
4.根据权利要求3所述的方法,其中,按照以下步骤建立哈希表M:
步骤a)、为哈希表M分配预定空间;
步骤b)、依次读入与所述蛋白质序列对应的谱图中的每个谱峰,将该谱峰的质量向下取整为n,如果哈希表M中的第n个元素为空则将该谱峰的编号写入第n个元素;
步骤c)、当所有谱峰读入完毕,将哈希表M中为空的元素写入前一元素的值。
5.根据权利要求3或4所述的方法,其中,步骤3)包括:
选择路径上所有顶点的权值之和较大的前k条路径。
6.根据权利要求1所述的方法,在步骤3)中,按照以下步骤将所选择的路径转换为修饰位点信息:
从所选择的路径的起点开始遍历,如果相邻顶点中后一个顶点对应的修饰集合B’比前一个顶点对应的修饰集合B多一个修饰,则与修饰集合B’对应的氨基酸上发生了该修饰,将该修饰与修饰位点对加入该路径的修饰位点信息。
7.根据权利要求1所述的方法,其中,所述修饰集合包括空集。
8.根据权利要求1所述的方法,其中,步骤1)之前还包括:
根据用户指定的修饰,建立修饰组合与该修饰组合的质量的索引表;其中所述修饰组合中的修饰数目小于预定数目且所述修饰组合的质量小于预定质量。
9.根据权利要求8所述的方法,其中,步骤1)包括:
步骤11)、根据所述蛋白质序列的每个氨基酸残基的质量计算蛋白质的理论质量;并且根据与所述蛋白质序列对应的谱图计算该谱图的母离子质量;
步骤12)、将所述母离子质量与所述理论质量的差值作为发生的修饰的总质量;
步骤13)、查询索引表得到该总质量对应的一个或多个修饰组合。
10.根据权利要求1所述的方法,还包括:
步骤4)、根据所述修饰位点信息与所述蛋白质序列构成候选蛋白质变体,根据候选蛋白质变体与所述谱图的匹配程度选择一个蛋白质变体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410360277.5/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用