[发明专利]蛋白质特征构建方法、装置、设备、存储介质及程序产品在审
| 申请号: | 201911329568.7 | 申请日: | 2019-12-20 |
| 公开(公告)号: | CN111091874A | 公开(公告)日: | 2020-05-01 |
| 发明(设计)人: | 汤一凡;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G16B35/00 | 分类号: | G16B35/00;G16B40/20;G16B50/10 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 蛋白质 特征 构建 方法 装置 设备 存储 介质 程序 产品 | ||
本申请公开了一种蛋白质特征构建方法,预先得到基因本体数据库中每条基因本体信息对应的向量,当需要针对某个蛋白质例如待识别蛋白质构建特征向量时,根据基因本体数据库确定待识别蛋白质的目标基因本体信息,根据目标基因本体信息具有的身份标识从预先得到的向量中确定目标基因本体信息对应的目标向量。接着,根据目标向量构建待识别蛋白质的特征向量。由于基因决定了蛋白质的功能及特性,故该方法基于基因本体信息构建的蛋白质的特征向量,基因本体信息反映了基因信息及分子功能或生物过程,即在构建蛋白质特征时考虑了蛋白质的基因信息及分子功能或生物过程,从而提高构建的蛋白质特征的准确率。
技术领域
本申请涉及生物信息技术领域,特别是涉及一种蛋白质特征构建方法、装置、设备、存储介质及程序产品。
背景技术
蛋白质是生命活动的体现者,是一切生物藉以表现生命的最重要基本单元,可以算是自然界最微小的自动机器,并且在与生物体系的运作中有着无可替代的作用。蛋白质的功能对于生物技术和医药方面的研究有着重要的作用,例如新药开发、新作物开发以及生物燃料等合成生物化学品的开发。
蛋白质的特征信息可以用于体现蛋白质的功能,因此,蛋白质特征的构建对于蛋白质功能的预测、分类等非常重要。传统的蛋白质特征构建方法基于氨基酸序列例如统计氨基酸出现频率、计算氨基酸理化性质或同源搜索构建蛋白质特征矩阵如位置特异性打分矩阵(position-specific scoring matrix,PSSM)。
但是蛋白质是由基因决定的,是基因转录翻译的产生物,上述方法是从序列信息本身角度考虑,而忽视了蛋白质的基因信息及分子功能或生物过程,导致构建的蛋白质特征准确率较低。
发明内容
为了解决相关技术中存在的技术问题,本申请提供了一种蛋白质特征构建方法、装置、设备、存储介质及程序产品,在构建蛋白质特征时考虑了蛋白质的基因信息及分子功能或生物过程,从而提高构建的蛋白质特征的准确率。
一方面,本申请实施例提供一种蛋白质特征构建方法,预先得到基因本体数据库中每条基因本体信息对应的向量,所述方法包括:
根据所述基因本体数据库确定待识别蛋白质的目标基因本体信息,所述目标基因本体信息具有身份标识;
根据所述身份标识,从预先得到的向量中确定所述目标基因本体信息对应的目标向量;
根据所述目标向量构建所述待识别蛋白质的特征向量。
可选的,所述基因本体数据库中每条基因本体信息对应的向量的确定方式为:
将所述每条基因本体信息中包括的类别和公理内容表示为句子,得到训练语料,所述训练语料中包括所述类别和所述公理内容对应的句子;
根据所述训练语料进行词向量训练,生成所述每条基因本体信息对应的向量。
可选的,若所述目标基因本体信息包括多条,所述根据所述目标向量构建所述待识别蛋白质的特征向量,包括:
对多条所述目标基因本体信息对应的目标特征向量进行加和平均处理,得到所述特征向量。
可选的,所述根据所述目标向量构建所述待识别蛋白质的特征向量,包括:
根据所述特征向量的预设长度,对所述目标向量进行降维处理;
根据处理后的目标向量构建所述特征向量。
可选的,所述特征向量用于对所述待识别蛋白质的功能进行分类和/或用于对所述待识别蛋白质的结合位点进行预测。
可选的,若所述特征向量用于对所述待识别蛋白质的结合位点进行预测,所述根据所述目标向量构建所述待识别蛋白质的特征向量之后,所述方法还包括:
获取所述待识别蛋白质中目标结合位点的残基特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911329568.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种硬件钱包及其管理方法
- 下一篇:检测模型的训练方法、检测方法及相关装置





