[发明专利]MoRFs预测模型的生成方法、装置、设备和存储介质有效
申请号: | 201911330914.3 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111091865B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 汤一凡;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B20/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | morfs 预测 模型 生成 方法 装置 设备 存储 介质 | ||
1.一种MoRFs预测模型的生成方法,其特征在于,包括:
获取多个分子识别特征MoRFs片段和多个非MoRFs片段,每个所述MoRFs片段由多个第一位点组成,每个所述非MoRFs片段包括多个第二位点;
提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量;
利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于MoRFs片段;
其中,所述提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量,包括:
对于各所述MoRFs片段,利用蛋白质对比工具获得该MoRFs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
以该MoRFs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第一子特征向量;并且,以该非MoRFs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第二子特征向量;
根据各所述MoRFs片段所在蛋白质的氨基酸出现频率和理化性质,获得该MoRFs片段所在蛋白质的第三子特征向量;
基于所述第三子特征向量和每个所述第一位点对应的所述第一子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第三子特征向量和每个所述第二位点对应的所述第二子特征向量,获得每个所述第二位点对应的所述第二特征向量。
2.根据权利要求1所述的方法,其特征在于,所述第一特征向量的数量和所述第二特征向量的数量相同。
3.根据权利要求1或2所述的方法,其特征在于,所述获取多个MoRFs片段和多个非MoRFs片段,包括:
从本征无序蛋白质IDPs序列库中,筛选多个所述MoRFs片段;
选取与各所述MoRFs片段相隔第一预设长度以外的多个所述非MoRFs片段。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取待预测蛋白质,所述待预测蛋白质包括N个位点,N为大于1的整数;
提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,N;
根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于MoRFs片段。
5.根据权利要求4所述的方法,其特征在于,
所述提取所述待预测蛋白质的第i位点对应的第i特征向量,包括:
利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二PSSM,并以所述第i位点为中心,基于所述第二PSSM向外扩展所述第二预设长度,得到所述第i位点对应的第四子特征向量;
根据所述待预测蛋白质的氨基酸出现频率和理化性质,获得所述待预测蛋白质的第五子特征向量;
基于所述第四子特征向量和所述第五子特征向量,获得所述第i位点对应的所述第i特征向量;
所述根据所述第i特征向量和所述目标预测模型,获得第i预测结果,具体为:
将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911330914.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据缓存方法、装置及相关产品
- 下一篇:电子设备、电路板及其制备方法