[发明专利]蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统有效

专利信息
申请号: 201910253412.9 申请日: 2019-03-29
公开(公告)号: CN110033822B 公开(公告)日: 2020-12-08
发明(设计)人: 薛宇;宁万山;许浩东;邓万锟;郭亚萍 申请(专利权)人: 华中科技大学
主分类号: G16B15/20 分类号: G16B15/20
代理公司: 华中科技大学专利中心 42201 代理人: 孙杨柳;曹葆青
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统,属于生物信息学领域。所述蛋白质编码方法包括收集修饰位点信息、位置权重训练和待编码肽段的编码。蛋白质翻译后修饰位点预测方法包括收集修饰位点信息、特征编码、模型训练和蛋白质翻译后修饰位点预测。本发明利用深度神经网络和惩罚逻辑回归分别对不同类别的阳性位点和阴性位点的数字向量特征构建预测模型,得到多个预测模型;将每个预测模型的预测结果作为新的特征并利用惩罚逻辑回归构建最终模型。本发明可以捕获更多蛋白信息从而有助于提高预测的准确度,可以快速的大规模鉴定蛋白质修饰位点。
搜索关键词: 蛋白质 编码 方法 翻译 修饰 预测 系统
【主权项】:
1.一种蛋白质编码方法,其特征在于,所述蛋白质编码方法用于表示待编码肽段与阳性数据集肽段的相似度,含有以下步骤:(1)收集修饰位点信息:首先收集蛋白质翻译后目标类型的修饰位点信息;将所述目标类型的修饰位点在蛋白质上的对应位点作为阳性位点,将该蛋白质上与所述阳性位点相同的其它氨基酸位点作为阴性位点;将蛋白质的一级序列切割成以所述阳性位点或阴性位点为中心,该中心上游为n个氨基酸,该中心下游为n个氨基酸,总长度为2n+1个氨基酸序列;所述n大于等于1;所有含有所述阳性位点的所述氨基酸序列构成阳性数据集,所有含有所述阴性位点的所述氨基酸序列构成阴性数据集;(2)位置权重训练:步骤(1)所述阳性数据集和阴性数据集中的每个肽段与阳性数据集基于位置权重和氨基酸替换得分的相似度打分的公式为:其中:L为所述阳性数据集中每个肽段的长度2n+1;N为所述阳性数据集中肽段的数量;Tij是阳性数据集中肽段Ti在位置j上的氨基酸,i的取值范围为1≤i≤N;Pj为肽段在位置j上的氨基酸;M[Pj,Tij]为氨基酸Pj和Tij在BLOSUM62氨基酸替换矩阵中的分值;Wj为该肽段中位置j上的权重;所述阳性数据集和阴性数据集中的每条肽段分别与阳性数据集中的每条肽段依次打分,其中肽段不与其自身打分,初始位置权重Wj为1,获得肽段中除中心位置以外的其它2n个位置的得分;然后将该2n个位置的得分使用惩罚逻辑回归执行交叉验证,使AUC值最大的权重向量由肽段中各个位置上的权重Wj组成;(3)待编码肽段的编码:待编码肽段与阳性数据集间的氨基酸对的平均相似度S为:其中:L是待编码肽段的长度,j为氨基酸所在位置,Cj为待编码肽段与阳性数据集间的任意一个氨基酸对在位置j上出现的次数,M为所述氨基酸对在BLOSUM62氨基酸替换矩阵中的分值,Wj为步骤(2)训练得到的待编码肽段位置j上的权重;待编码肽段与阳性数据集间的所有的氨基酸对的相似度得分构成该待编码肽段的数字向量特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910253412.9/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top