[发明专利]配体特异性蛋白质-配体绑定区域预测方法无效

申请号：	201310450715.2	申请日：	2013-09-27
公开（公告）号：	CN103500292A	公开（公告）日：	2014-01-08
发明（设计）人：	於东军;胡俊;戚湧;唐振民;杨静宇	申请（专利权）人：	南京理工大学
主分类号：	G06F19/18	分类号：	G06F19/18
代理公司：	南京理工大学专利中心 32203	代理人：	朱显国
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特异性蛋白质绑定区域预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及蛋白质与配体相互作用预测领域，具体而言涉及一种配体特异性蛋白质-配体绑定区域预测方法。

背景技术

蛋白质在生命活动过程中不是孤立存在的，需要和其他生物分子互相作用来完成特定的功能，这种相互作用在生命过程中普遍存在并且不可或缺。蛋白质通过绑定其他的生物分子来加强或是抑制其生物功能。蛋白质所绑定的生物分子称为配体，它们可以是金属离子、小的有机/无机分子、大分子(例如蛋白质)或核酸等等。在和配体相互作用时，蛋白质中一些关键的残基形成一个口袋形状区域，以完成对特定配体的识别及绑定。这些关键残基称为绑定残基，形成的口袋形状区域又称为绑定区域。

从一个蛋白质中识别出这些关键残基以及这些残基所形成的区域，对于理解蛋白质的功能、药物设计、分析生物分子之间的相互作用，进而指导进一步的生化实验具有重要意义。虽然说，通过生物学实验来测定蛋白质-配体绑定区域是最为准确的方法，但由于使用实验方法所固有的困难性，远远不能满足后基因时代蛋白质测序工作飞速发展的要求，这就对通过使用生物计算技术来对蛋白质-配体绑定区域进行预测提出了极大的需求。

已有预测方法可以大致分为三种类型：基于结构的方法、基于序列的方法以及基于结构和序列的混合方法。

在早期阶段，基于结构的方法占据主导地位，比较著名的方法有：LIGSITE,CASTp,SURFNET,POCKET,fpocket,Q-SiteFinder,以及SITEHOUND等等。通常，这些方法基于某种几何测度，结合蛋白质的3D结构，来定位目标蛋白质的配体绑定区域。

随后，研究人员发现直接从蛋白质的序列出发也可以有效地进行蛋白质-配体绑定区域的预测。例如，ConSurf和Rate4Site使用多序列联配技术获取蛋白质的进化信息，然后基于进化信息特征识别出该蛋白质和配体可能的热点绑定区域；L1pred综合八种基于蛋白质序列的得分函数，使用L1-logreg分类器来预测酶蛋白中的接触反应残基。

最近，集成蛋白质结构与序列信息的混合方法受到密切关注，期望进一步提高蛋白质-配体的预测性能。例如，通过引入蛋白质表面残基的进化信息保留度，基于结构的LIGSITE被进一步扩展为LIGSITE^csc;ConCavity集成了蛋白质序列的进化保留信息和基于结构的方法来预测蛋白质表面的pocket;SURFNET-ConSurf同样也是在基于结构的方法中加入了蛋白质残基的进化信息来进一步提高预测性能。

然而，综合分析以上预测模型，可以发现：一方面，现有的方法通常是在一般意义上来进行预测，而没有充分考虑配体类型之间的差异性，从而降低了预测结果的可靠性；另一方面，现有方法中的绝大多数只是一种绑定状态预测，他们将序列中的每个残基判定为绑定或是非绑定两种状态之一，只是绑定残基预测,而不是真正意义上的绑定区域预测。我们相信，如果能从预测出的绑定残基出发，进一步判定哪些残基会构成绑定区域，对于理解蛋白质-配体的相互作用意义将更为明显。

发明内容

本发明旨在提供一种配体特异性蛋白质-配体绑定区域预测方法，可克服上述现有技术中传统的蛋白质-配体预测方法存在的两个基本问题，预测速度快、预测精度高。

为达成上述目的，本发明所采用的技术方案如下：

一种配体特异性蛋白质-配体绑定区域预测方法，包括以下步骤：

步骤1：基于输入的蛋白质序列信息，使用配体特异性预测模型，预测出蛋白质序列中的蛋白质-配体绑定残基，过程如下：

步骤1.1：多视角特征的抽取与组合

使用PSI-BLAST算法抽取蛋白质序列的进化信息，使用PSIPRED算法抽取蛋白质序列的二级结构信息，以及统计20种基本氨基酸在不同配体上的绑定倾向性；再利用滑动窗口方式，将蛋白质序列中的每个残基进行多视角特征表示；

步骤1.2：绑定残基预测

使用事先训练好的配体特异性预测模型对蛋白质序列中的每个残基配体的概率进行预测，概率高于指定阈值的残基被预测为绑定残基，其中：配体特异性预测模型使用标准的支持向量机模型；

步骤2：将步骤1所得到绑定残基进行空间聚类，使用空间聚类算法，进行空间聚类，进而得到一个或是多个绑定区域。

进一步的实施例中，如果输入的蛋白质序列信息为PDB文件格式的3D结构，则在所述步骤1进行配体特异性特征抽取时，需要先从3D结构中提取出蛋白质序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。