[发明专利]一种基于邻接蛋白的蛋白功能注释方法在审
申请号: | 201610012805.7 | 申请日: | 2016-01-11 |
公开(公告)号: | CN105678109A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 郝彤;彭玮;孙金生 | 申请(专利权)人: | 天津师范大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 邻接 蛋白 功能 注释 方法 | ||
技术领域
本发明属于生物信息学技术领域,涉及一种基于邻接蛋白的蛋白功能注释方法。
背景技术
随着基因测秩序技术逐步提升,新发现的蛋白序列也在日益增多,虽然对于蛋白 的功能注释已经进行了大量的研究,目前仍然存在大量功能无法预知的蛋白,由于许多生 物体生命活动机理的分析和研究需建立在对蛋白功能进行分析的基础上,因此未知蛋白的 存在对于这些研究产生了阻碍。因此,近些年来,越来越多的研究针对蛋白功能预测展开。 对于一个新测序的蛋白,其功能可以通过与已知的蛋白序列数据库(如Uniprot)进行 BLASTP比对来预测,或利用其蛋白编号或名称从GeneOntology数据库查询其功能注释,而 通过数据库比对无法找到功能注释的蛋白,则需通过其他方法进行进一步的分析。利用蛋 白互作网络进行功能注释的研究在这样的背景下展开,对于蛋白互作网络中未知蛋白的功 能的注释,目前大多采用聚类方法进行,如通过结合分类树和模块化指标进行功能模块划 分,将模块中所有已知蛋白的功能注释赋予未知蛋白,从而对未知蛋白进行功能注释的方 法(参考文献:LectureNotesInElectricalEngineering,Volume322,2015,pp 831-837),该类方法的注释结果全面性较好,而准确性不足。本文提出了基于邻接蛋白对未 知蛋白进行功能注释的方法,该方法在功能注释过程中综合考虑未知蛋白周边各已知邻居 蛋白的功能,从而决定未知蛋白的功能,该方法设计更为符合生物体中相互作用的蛋白倾 向于具有相似功能的原理,能够得到高质量的蛋白功能注释。
运用此方法需具备蛋白互作网络、GO术语信息和Perl软件。该方法利用“就近一 致”的中心思想,形成了为蛋白网络中未知功能蛋白添加GO注释的方法,为进一步预测蛋白 功能以及研究子网络参与的生物过程奠定基础。
发明内容
一种基于邻接蛋白的蛋白功能注释方法,其特征在于它是由确定未知功能蛋白、 统计未知功能蛋白邻接节点注释信息以及添加未知功能蛋白GO注释组成,使用perl语言实 现该算法,具体步骤如下:
(1)确定未知功能蛋白:蛋白质互作网络中,相互作用的两个蛋白称之为节点,其相互 之间的作用称之为边,蛋白互作网络中的已知蛋白是指在GeneOntology数据库中能够根 据蛋白编号找到相应的GO功能注释的蛋白,而相对的,无法找到GO功能注释的蛋白即为未 知功能蛋白。
(2)统计未知功能蛋白邻接节点注释信息:确定未知功能蛋白后,分别统计他们邻 接蛋白的GO注释信息。对于一个未知功能蛋白,首先找到该蛋白所有的邻接蛋白,统计这些 邻接蛋白都有哪些GO注释,并统计在所有邻接蛋白包含的GO注释中,每个GO注释标注了多 少个邻接蛋白,其标注的邻接蛋白数占所有有GO注释的邻接蛋白总数的百分比,将该百分 比设为p。即
(3)添加未知功能蛋白GO注释,具体步骤如下:
1)若A为未知功能蛋白,且A仅有一个邻接蛋白B,则将B的所有功能注释赋给蛋白A;
2)若A有多于一个邻接节点,此时需要确定一个合适的临界值,并计算邻接蛋白包含的 每一个GO注释的p值,当某个GO注释的p值大于等于临界值时,就将这个GO注释赋予A;
(4)重复步骤(1)-(3),直到已添加注释个数不再发生变化为止。
以图1为例,其中A、B、C是未知蛋白,D、E、F、G、H是已知蛋白。在第一轮循环中,未知 蛋白A具有功能注释的邻接蛋白(D和E)个数为2,D蛋白的功能注释是2,3,4,E蛋白的功能注 释是1,2,6,7,如果设定的临界值为0.75,则在A的邻接蛋白的所有功能注释1,2,3,4,6,7 中,仅有2的p=1,满足p≥0.75的条件,那么A这一未知蛋白被赋予的功能注释则为2;同理, 未知蛋白C的邻接蛋白所具有的功能注释中,仅有功能9的p值满足p≥0.75的条件,因此将 功能9赋予C蛋白;B蛋白仅有一个邻接节点F具有功能注释,则将F的功能注释4,5,6全部赋 予B蛋白。综上,在第一次循环中A蛋白的功能注释为2,B蛋白的功能注释为4,5,6,C蛋白的 功能注释为9。在第二次循环中A蛋白有三个具有功能注释的邻接蛋白B、D、E,根据同样的原 则,该轮循环中A蛋白新添加功能注释4和6,即具有功能注释2,4和6,同理,C蛋白新添加功 能注释6,具有功能注释6和9。按照这个方法不断循环,直至所有未知蛋白都不再添加新功 能注释为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津师范大学,未经天津师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610012805.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用