[发明专利]基于查询驱动的蛋白质-配体绑定位点预测方法有效

申请号：	201310573950.9	申请日：	2013-11-15
公开（公告）号：	CN103617203A	公开（公告）日：	2014-03-05
发明（设计）人：	於东军;胡俊;何雪;李阳;沈红斌;唐振民;杨静宇	申请（专利权）人：	南京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京理工大学专利中心 32203	代理人：	朱显国
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于查询驱动的蛋白质-配体绑定位点预测方法，包括：步骤1、对于一条给定的查询输入，从可用数据库中查找出具有高同源性的蛋白质序列，构成基于查询驱动的训练数据集；步骤2、得到的训练数据集，所有的绑定残基提取为正样本集，所有的非绑定残基提取为负样本集；步骤3、从进化信息和二级结构视角抽取每个样本的特征向量，得到正负样本的特征向量集；步骤4、使用标准支持向量机算法，训练得到针对查询输入q的SVM预测模型；步骤5、对于查询输入，使用同样的特征抽取方法抽取每个残基的特征向量，输入SVM预测模型，再利用阈值分割方法预测。利用本发明可提高预测精度并防止在固定训练数据集上可能出现的过优化和过拟合的问题。
搜索关键词：	基于查询驱动蛋白质配体绑定位预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于查询驱动的蛋白质‑配体绑定位点预测方法，其特征在于，包括以下步骤：步骤1、对于一条给定的查询输入q、即待预测/待查询的蛋白质序列，从蛋白质‑配体数据库D中查询与该查询输入q具有高同源性的蛋白质序列，构成一基于查询驱动的训练数据集Dq‑specific；步骤2、基于步骤1得到的训练数据集Dq‑specific，提取Dq‑specific中所有绑定残基组成正样本集，提取Dq‑specific中所有非绑定残基组成负样本集；步骤3、为每个样本从进化信息视角和二级结构视角抽取特征，从而得到正样本的特征向量集以及负样本的特征向量集；步骤4、依据正负样本的特征向量集，使用标准支持向量机算法，训练得到针对查询输入q的SVM预测模型；以及步骤5、对于查询输入q，使用与前述步骤3同样的特征抽取方法抽取每个残基的特征向量，然后依次将每个残基的特征向量输入所述SVM预测模型，所述SVM预测模型输出每个残基相应的绑定概率，最后利用阈值分割方法进行分割：概率大于或是等于阈值的残基被预测为绑定残基，概率小于阈值的残基被预测为非绑定残基。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310573950.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于查询驱动的蛋白质-配体绑定位点预测方法有效

专利文献下载