[发明专利]MoRFs预测模型的生成方法、装置、设备和存储介质有效
申请号: | 201911330914.3 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111091865B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 汤一凡;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B20/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | morfs 预测 模型 生成 方法 装置 设备 存储 介质 | ||
本申请公开了一种MoRFs预测模型的生成方法、装置、设备和存储介质,该方法包括:获取多个MoRFs片段和多个非MoRFs片段,每个MoRFs片段由多个第一位点组成,每个非MoRFs片段包括多个第二位点;提取每个第一位点对应的第一特征向量以及每个第二位点对应的第二特征向量;利用第一特征向量和第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于MoRFs片段。这样,借助该目标预测模型,即可方便、快速和准确的预测出蛋白质上属于MoRFs片段的位点。
技术领域
本申请涉及生物信息技术领域,特别是涉及一种分子识别特征(英文:MolecularRecognition Features,简称:MoRFs)的预测模型生成方法和装置、以及一种MoRFs预测方法、装置、设备和存储介质。
背景技术
通常,一些蛋白质在天然条件下能够折叠缠绕形成特定的空间三维结构,可以根据蛋白质的空间三维结构分析和确定出该蛋白质的生物功能;而另一些蛋白质则在天然条件下无法形成确定的空间三维结构,该类蛋白质称为本征无序蛋白质(英文:Intrinsically Disordered Proteins,简称:IDPs)。该IDPs由于空间三维结构的不确定性,所以无法通过分析其空间三维结构确定生物功能。
在IDPs中,MoRFs能够将无序的蛋白质序列转换为有序的蛋白质序列,体现出该IDPs和其他蛋白质结合的位点,分析该IDPs的生物功能,所以,确定IDPs中的MoRFs对分析该IDPs的生物功能具有重要意义。基于此,目前亟待提供一种能够快速、准确的识别IDPs中MoRFs的方法,以便分析和确定IDPs的生物功能。
发明内容
为了解决上述技术问题,本申请实施例提供了一种MoRFs的预测模型生成方法、装置设备和存储介质,通过MoRFs的预测模型能够方便、快速和准确的识别出IDPs中的各位点是否属于MoRFs片段。
第一方面,提供了一种MoRFs预测模型的生成方法,包括:
获取多个分子识别特征MoRFs片段和多个非MoRFs片段,每个所述MoRFs片段由多个第一位点组成,每个所述非MoRFs片段包括多个第二位点;
提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量;
利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于MoRFs片段。
可选地,所述第一特征向量的数量和所述第二特征向量的数量相同。
可选地,所述获取多个MoRFs片段和多个非MoRFs片段,包括:
从本征无序蛋白质IDPs序列库中,筛选多个所述MoRFs片段;
选取与各所述MoRFs片段相隔第一预设长度以外的多个所述非MoRFs片段。
可选地,所述提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量,包括:
对于各所述MoRFs片段,利用蛋白质对比工具获得该MoRFs片段所在蛋白质对应的第一位置特异性得分矩阵PSSM;
以该MoRFs片段中的每个所述第一位点为中心,基于所述第一PSSM向外扩展第二预设长度,得到各所述第一位点对应的第一子特征向量;并且,以该非MoRFs片段中的每个所述第二位点为中心,基于所述第一PSSM向外扩展所述第二预设长度,得到各所述第二位点对应的第二子特征向量;
根据各所述MoRFs片段所在蛋白质的氨基酸出现频率和理化性质,获得该MoRFs片段所在蛋白质的第三子特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911330914.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据缓存方法、装置及相关产品
- 下一篇:电子设备、电路板及其制备方法