[发明专利]基于集成分类器的TA蛋白靶向预测方法在审
| 申请号: | 201810273087.8 | 申请日: | 2018-03-29 |
| 公开(公告)号: | CN108595909A | 公开(公告)日: | 2018-09-28 |
| 发明(设计)人: | 刘弘;何演林;马长乐;赵丹丹;陆佃杰;吕晨 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06F19/16 | 分类号: | G06F19/16;G06F19/24;G06K9/62;G06N3/08 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 王志坤 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分类结果 蛋白 靶向 蛋白质序列特征 蛋白质数据 集成分类器 特征提取 算法 亚细胞器靶向 支持向量机 惩罚系数 弱分类器 特征选择 投票方式 网格方式 训练过程 训练模型 亚细胞器 融合 预测 优化 | ||
本发明公开了一种基于集成分类器的TA蛋白靶向方法,包括:采用PSSM方法对蛋白质数据进行编码;融合了一种Bayes的特征提取方法来提取蛋白质序列特征;采用mRMR算法对蛋白质数据进行特征选择;用支持向量机去训练模型,在训练过程中基于网格方式对参数γ和惩罚系数C进行优化;最后,集成SVM、NB、RF、Logist、KNN五种弱分类器对TA蛋白在亚细胞器靶向的分类结果,通过投票方式得出最终的分类结果;本发明有益效果:融合了一种Bayes的特征提取方法来提取蛋白质序列特征,通过集成多种算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向。
技术领域
本发明属于生物信息领域,尤其涉及了基于集成分类器的TA蛋白靶向预测 方法。
背景内容
末端锚定蛋白质(tail-anchored proteins,TA蛋白质)是一类特殊的膜蛋白, 存在于所有生物中。此类蛋白质通过位于C端的唯一疏水跨膜结构域锚定在多 种细胞器膜上,参与细胞多种重要的生理生化反应,但是至今人们对TA蛋白所 涉及的机制和信号尚未完全了解。蛋白质靶向定位过程之一是将蛋白质插入生物 膜中,而膜蛋白的有效和准确的插入是保证其在不同细胞器中正常功能的重要步 骤,并且任何靶向误差可能导致这些蛋白质的错误定位,而不利于细胞效应。因 此,TA蛋白靶向的预测具有重要的意义。
TA蛋白质在C末端具有单个跨膜结构域(TMD),将其锚定在细胞膜上, 并将其N末端结构区域暴露在细胞溶液中。研究发现,这类蛋白在细胞分裂、 凋亡、脂质运输等过程起到关键性的作用。因此,其正确的靶向定位对于细胞和 生物体是至关重要的。TA蛋白质的TMD仅在翻译终止后才从核糖体中出现, TA蛋白在三个亚细胞位点进入细胞膜系统:内质网(ER),线粒体和过氧化物 酶体。在哺乳动物中,TRC40复合物参与将TA蛋白质插入到ER中。过氧化物 酶体和线粒体的蛋白质插入机制上不明确。
TA蛋白质的靶向信息包含在C末端,并且研究中已经确定TMD的疏水性 和电荷量的存在是蛋白质选择靶向的重要因素。一般来说,ER靶向的TA蛋白 往往具有比线粒体的那些TA蛋白更具有疏水性,这其中包含TMD的非带电区 域。实验中证明,尾部的电荷量对于过氧化物酶体靶向也是很重要的。此外,TA 蛋白在哺乳动物细胞中过氧化物酶体和线粒体的靶向研究中,揭示了细胞器相互 作用和新型过氧化物酶体功能之间的关系。并且在后续研究中发现,这两种靶向 定位错误与细胞疾病存在关系。而且过氧化物酶体在脂质代谢中发挥重要的代谢 功能,并且影响神经元的发育和衰老。
虽然生物信息学在TA蛋白在亚细胞器靶向已经有相关成果,但目前仍然缺 乏更广泛深入的研究。
发明内容
本发明的主要目的是提供一种基于集成分类器的TA蛋白靶向预测方法。
在研究拟南芥植物TA蛋白中,本发明技术人员发现疏水性、电荷量、序列 和序列长度这些参数的变化,对TA蛋白定位都会产生影响。通过调整特征参数, 可以得出更准确的模型,本发明技术人员发现植物与中疏水性比电荷量更能影响 TA蛋白的定位。我们通过blast序列产生的PSSM矩阵信息进行编码,利用基于 互信息的最大相关最小冗余mRMR对TA蛋白序列特征进行选择,利用Bayes 算法进行特征提取,并采用对五中分类器结果集成分类,通过投票方式,实现 TA蛋白的靶向预测。
为实现上述目的,本发明采用以下技术方案:
本发明主要目的是一种基于集成分类器的TA蛋白靶向预测方法,所述方法 包括以下步骤:
(1)通过对TA蛋白质blast序列产生的PSSM矩阵信息编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810273087.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





