[发明专利]基于集成学习的分子识别特征功能预测方法在审
申请号: | 202111364340.9 | 申请日: | 2021-11-17 |
公开(公告)号: | CN113936748A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 鱼亮;李浩铮 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16C20/20 | 分类号: | G16C20/20;G06K9/62;G06N3/08;G06N3/12;G06N20/10 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 学习 分子 识别 特征 功能 预测 方法 | ||
本发明公开了一种基于集成学习的分子识别特征功能预测方法,主要解决现有分子识别特征预测器不能进一步划分分子识别特征功能的问题。其方案是:下载固有无序蛋白质数据及其在功能注释,划分训练数据和测试数据,对其蛋白质序列进行特征表示,并设计其残基标签;选取单输入的二元关联策略机器学习模型;使用训练数据训练不同的机器学习模型;使用集成策略对不同机器学习模型训练结果进行集成得到预测模型;将待研究的蛋白质序列数据输入到预测模型中,输出该蛋白质的分子识别特征功能预测结果。本发明实验流程简单、耗费资源小、成本低、预测结果的可靠性高,可用于预测蛋白质序列中分子识别特征的功能,为药物靶点作用位置提供参考。
本发明属于生物信息学技术领域,特别涉及一种分子识别特征的功能预测方法,可用于预测蛋白质序列中分子识别特征的功能,为药物靶点作用位置提供参考。
背景技术
分子识别特征,是指蛋白质中包含10到70个残基之间的固有无序区,在与其伙伴结合之后从无序区转变成有序区的区域。所述伙伴,包括指碳水化合物、离子、脂质、核酸、蛋白质和小分子。分子识别特征的功能包括分子识别组装器(molecular recognitionassembler)、分子识别清除剂(molecular recognition scavenger)、分子识别效应器(molecular recognition effector)、分子识别显示位点(molecular recognitiondisplay sites)和分子识别伴侣(molecular recognition chaperone)。其中分子识别组装器,用于组装复合物和目标活动;分子识别清除剂,用于储存或中和小的配体;分子识别效应器,用于调节其伙伴分子的活性;分子识别显示位点,用于使得翻译后修饰不表达;分子识别伴侣,用于协助核酸折叠。
在药物发现领域,传统的药物发现模式是针对蛋白质的结构活性位点区域进行实验,近些年研究人员发现,将药物作用位点设置为分子识别特征,对于某些疾病的治疗有着很好的效果,在对分子识别特征的研究中有研究人员认为,蛋白质的某些功能发挥作用与分子识别特征的功能密切相关,因此,分子识别特征的功能对药物与靶标的作用方式同样有很大的作用,分子识别特征的功能研究有很大的潜在生物学意义。
现有对于分子识别特征功能的预测主要集中在生物实验方面,例如通过X射线衍射或者通过质子核磁共振来确定分子识别特征的功能,这些方式对于新的蛋白质进行分子识别特征功能预测不但实验流程复杂,资源耗费大,而且成本高。
发明内容
本发明的目的在于提供一种基于集成学习的蛋白质分子识别特征功能预测方法,以解决现有技术实验流程复杂,资源耗费大,成本高的不足,。
本发明的技术思路是:将蛋白质分子识别特征的功能预测看成一个多标记学习任务,使用二元关联策略,充分利用现有的数据集,采取不同的机器学习方法构建单个模型,利用集成学习中的权重法,权重值由遗传算法得到,融合单个模型获得最终的预测模型,通过预测模型对蛋白质分子识别特征的功能进行预测。
根据上述思路,本发明的技术方案包括如下:
(1)下载固有无序蛋白质及其功能注释数据,根据固有无序蛋白质功能注释筛选蛋白质序列,并基于序列相似度将固有无序蛋白质数据划分训练蛋白质序列集H1和测试蛋白质序列集H2;
(2)将训练蛋白质序列集H1和测试蛋白质序列集H2中的每个蛋白质序列表示为位置特异性频率矩阵PSFM,该矩阵的每一行代表蛋白质序列对应位置残基的特征表示;
(3)根据PSFM矩阵,得到训练位置特异性频率矩阵集M1和测试位置特异性矩阵集M2,即由训练蛋白质序列集H1所有蛋白质序列的位置性特异矩阵组成训练位置特异性频率矩阵集M1,由测试蛋白质序列集H2所有蛋白质序列的位置性特异矩阵组成测试位置特异性频率矩阵集M2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111364340.9/2.html,转载请声明来源钻瓜专利网。