[发明专利]一种蛋白质翻译后修饰的定位方法及系统有效
申请号: | 201410360277.5 | 申请日: | 2014-07-25 |
公开(公告)号: | CN104134015B | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 罗兰;孙瑞祥;迟浩;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 翻译 修饰 定位 方法 系统 | ||
技术领域
本发明涉及生物信息学领域,以及更具体地,涉及一种蛋白质翻译后修饰的定位方法及系统。
背景技术
在基于质谱技术的计算蛋白质组学领域里,常用的蛋白质鉴定方法是“自底向上(Bottom-up,BU)”的数据库搜索算法,即先鉴定酶切肽段,然后根据鉴定到的肽段推断蛋白质。尽管这种方法简单易操作并且灵敏度和通量均比较高,但是肽段在酶切过程中丢失了原始蛋白质的一些信息,直接由鉴定肽段推断出原始蛋白质由于缺乏信息具有很多不确定性的因素,而且有些被鉴定到的蛋白质仅有少数几条肽段,蛋白质序列覆盖率低,特别是对于发生多翻译后修饰(蛋白质的氨基酸侧链上结合了一些调控生命过程的化学基团)的蛋白质鉴定、修饰间的相互作用等研究无法提供足够的信息。而“自顶向下(Top-down,TD)”的蛋白质鉴定方法则不需要酶切,可以具有完整的翻译后修饰信息,能够直接对原始蛋白质变体(“Proteoform”)进行鉴定。其中,蛋白质变体是指由同一个基因所形成的所有不同形式的蛋白质分子。由基因到蛋白质,中途的基因突变、RNA可变剪切和蛋白质上翻译后修饰等情况都可能会导致相同的基因产生不同形式的蛋白质,它们统称为蛋白质变体。
随着分离技术和质谱技术的快速发展,利用质谱仪检测蛋白质的技术越来越成熟,但是后端的生物信息学分析技术的发展非常缓慢,目前可用的完整蛋白质鉴定方法非常少,而且运行速度较慢、对多修饰的处理能力有限。其中,ProSight软件仅能够鉴定通过“鸟枪法”标注的那部分修饰位点;MS-Align-E虽然支持用户指定任意的修饰,但是消耗的时间和空间都非常大;研究人员还指出:在3.4GHz的PC机上采用3252张谱图搜索1个目标蛋白质需要超过8小时的时间,若搜索整个人类蛋白质序列库中的9万多个蛋白质,则时间可能需要按月来计。这主要是因为对于完整蛋白质来说,由于序列较长、可能的修饰位点数较多,枚举所有修饰位点是否发生修饰以及发生何种修饰是对计算的极大挑战。如果在蛋白质序列上有t种不同的可修饰氨基酸,每种氨基酸各有m1,m2,...,mt个,而每个氨基酸上可以发生的修饰数目分别为n1,n2,...,nt种,则一共需枚举种情况。以人类组蛋白H4为例,通过UniProt数据库中的修饰位点信息计算理论的蛋白质变体形式就有260亿种。
综上所述,现有的修饰定位技术或者不支持用户指定任意修饰,或者虽然支持用户指定任意的修饰但定位速度很慢。
发明内容
为提高对修饰位点进行定位的速度并且同时支持用户指定任意修饰,根据本发明的一个实施例,提供一种蛋白质翻译后修饰的定位方法,包括:
步骤1)、对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;
步骤2)、将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;
步骤3)、根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。
在一个实施例中,在步骤2)中,按照以下步骤连接图中的顶点:
对于相邻的氨基酸对应的两个修饰集合B、B’,其中B’是后一个氨基酸对应的修饰集合,如果B=B’,则在所述图中建立从B对应的顶点到B’对应的顶点的有向边;或者如果B’=B∪{x},并且修饰x属于所述一个或多个修饰组合并且能够发生在B’对应的氨基酸上,则在所述图中建立从B对应的顶点到B’对应的顶点的有向边。
在一个实施例中,在步骤2)中,根据顶点对应的蛋白质的N端和C端离子与谱图中谱峰的匹配结果设置该顶点的权值,包括以下步骤:
步骤A)、根据与所述蛋白质序列对应的谱图中谱峰的质量建立哈希表M,以及计算所述顶点对应的蛋白质的N端和C端离子的质量并且向下取整;其中,哈希表M中的第i个元素表示质量为i,其元素值表示质量为i的谱峰的编号;
步骤B)、对于取整后的N端和C端离子的质量,查询与其中每个质量匹配的谱峰;其中,查找与一个质量m匹配的谱峰包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410360277.5/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用