[发明专利]配体特异性蛋白质-配体绑定区域预测方法无效
| 申请号: | 201310450715.2 | 申请日: | 2013-09-27 |
| 公开(公告)号: | CN103500292A | 公开(公告)日: | 2014-01-08 |
| 发明(设计)人: | 於东军;胡俊;戚湧;唐振民;杨静宇 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱显国 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特异性 蛋白质 绑定 区域 预测 方法 | ||
技术领域
本发明涉及蛋白质与配体相互作用预测领域,具体而言涉及一种配体特异性蛋白质-配体绑定区域预测方法。
背景技术
蛋白质在生命活动过程中不是孤立存在的,需要和其他生物分子互相作用来完成特定的功能,这种相互作用在生命过程中普遍存在并且不可或缺。蛋白质通过绑定其他的生物分子来加强或是抑制其生物功能。蛋白质所绑定的生物分子称为配体,它们可以是金属离子、小的有机/无机分子、大分子(例如蛋白质)或核酸等等。在和配体相互作用时,蛋白质中一些关键的残基形成一个口袋形状区域,以完成对特定配体的识别及绑定。这些关键残基称为绑定残基,形成的口袋形状区域又称为绑定区域。
从一个蛋白质中识别出这些关键残基以及这些残基所形成的区域,对于理解蛋白质的功能、药物设计、分析生物分子之间的相互作用,进而指导进一步的生化实验具有重要意义。虽然说,通过生物学实验来测定蛋白质-配体绑定区域是最为准确的方法,但由于使用实验方法所固有的困难性,远远不能满足后基因时代蛋白质测序工作飞速发展的要求,这就对通过使用生物计算技术来对蛋白质-配体绑定区域进行预测提出了极大的需求。
已有预测方法可以大致分为三种类型:基于结构的方法、基于序列的方法以及基于结构和序列的混合方法。
在早期阶段,基于结构的方法占据主导地位,比较著名的方法有:LIGSITE,CASTp,SURFNET,POCKET,fpocket,Q-SiteFinder,以及SITEHOUND等等。通常,这些方法基于某种几何测度,结合蛋白质的3D结构,来定位目标蛋白质的配体绑定区域。
随后,研究人员发现直接从蛋白质的序列出发也可以有效地进行蛋白质-配体绑定区域的预测。例如,ConSurf和Rate4Site使用多序列联配技术获取蛋白质的进化信息,然后基于进化信息特征识别出该蛋白质和配体可能的热点绑定区域;L1pred综合八种基于蛋白质序列的得分函数,使用L1-logreg分类器来预测酶蛋白中的接触反应残基。
最近,集成蛋白质结构与序列信息的混合方法受到密切关注,期望进一步提高蛋白质-配体的预测性能。例如,通过引入蛋白质表面残基的进化信息保留度,基于结构的LIGSITE被进一步扩展为LIGSITEcsc;ConCavity集成了蛋白质序列的进化保留信息和基于结构的方法来预测蛋白质表面的pocket;SURFNET-ConSurf同样也是在基于结构的方法中加入了蛋白质残基的进化信息来进一步提高预测性能。
然而,综合分析以上预测模型,可以发现:一方面,现有的方法通常是在一般意义上来进行预测,而没有充分考虑配体类型之间的差异性,从而降低了预测结果的可靠性;另一方面,现有方法中的绝大多数只是一种绑定状态预测,他们将序列中的每个残基判定为绑定或是非绑定两种状态之一,只是绑定残基预测,而不是真正意义上的绑定区域预测。我们相信,如果能从预测出的绑定残基出发,进一步判定哪些残基会构成绑定区域,对于理解蛋白质-配体的相互作用意义将更为明显。
发明内容
本发明旨在提供一种配体特异性蛋白质-配体绑定区域预测方法,可克服上述现有技术中传统的蛋白质-配体预测方法存在的两个基本问题,预测速度快、预测精度高。
为达成上述目的,本发明所采用的技术方案如下:
一种配体特异性蛋白质-配体绑定区域预测方法,包括以下步骤:
步骤1:基于输入的蛋白质序列信息,使用配体特异性预测模型,预测出蛋白质序列中的蛋白质-配体绑定残基,过程如下:
步骤1.1:多视角特征的抽取与组合
使用PSI-BLAST算法抽取蛋白质序列的进化信息,使用PSIPRED算法抽取蛋白质序列的二级结构信息,以及统计20种基本氨基酸在不同配体上的绑定倾向性;再利用滑动窗口方式,将蛋白质序列中的每个残基进行多视角特征表示;
步骤1.2:绑定残基预测
使用事先训练好的配体特异性预测模型对蛋白质序列中的每个残基配体的概率进行预测,概率高于指定阈值的残基被预测为绑定残基,其中:配体特异性预测模型使用标准的支持向量机模型;
步骤2:将步骤1所得到绑定残基进行空间聚类,使用空间聚类算法,进行空间聚类,进而得到一个或是多个绑定区域。
进一步的实施例中,如果输入的蛋白质序列信息为PDB文件格式的3D结构,则在所述步骤1进行配体特异性特征抽取时,需要先从3D结构中提取出蛋白质序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310450715.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:后挡风玻璃平台融入式冰箱
- 下一篇:一种热泵系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





