[发明专利]一种蛋白质亚叶绿体多位置预测方法在审
| 申请号: | 201510782419.1 | 申请日: | 2015-11-12 |
| 公开(公告)号: | CN105447340A | 公开(公告)日: | 2016-03-30 |
| 发明(设计)人: | 王晓;张秋闻;赵进超;王榕;张伟伟;郭瑞 | 申请(专利权)人: | 郑州轻工业学院 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/24 |
| 代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 张绍琳;张真真 |
| 地址: | 450002*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种蛋白质亚叶绿体多位置预测的方法,步骤为:抽取出蛋白质序列的伪氨基酸组成特征,分别为每个亚叶绿体位置训练一个支持向量机分类器;把亚叶绿体位置对于蛋白质样本的归属值追加到蛋白质的特征向量中,使用亚叶绿体位置来扩展蛋白质样本的特征空间;在扩展后的蛋白质特征空间中,利用遗传算法分别为每个亚叶绿体位置选取最优的扩展特征子集;基于每个亚叶绿体位置的最优扩展特征子集,分别训练一个支持向量机分类器;基于所得两组支持向量机分类器对待预测蛋白质进行蛋白质亚叶绿体多位置预测。本发明能够同时预测出蛋白质的多个亚叶绿体位置,且通过融合位置间关系和位置相关特征大幅度地提高了蛋白质亚叶绿体多位置预测的精度。 | ||
| 搜索关键词: | 一种 蛋白质 叶绿体 位置 预测 方法 | ||
【主权项】:
一种蛋白质亚叶绿体多位置预测方法,其特征在于,包括以下步骤:步骤1、对于待预测的蛋白质序列和训练数据集,基于蛋白质的氨基酸序列信息,采用伪氨基酸组成方法,抽取出待预测的蛋白质序列和训练数据集中所有蛋白质序列的特征向量,从而构成待预测样本集和训练样本集;步骤2、基于步骤1所构建的原始训练样本集,分别为每个亚叶绿体位置构建新的训练样本集;在每个亚叶绿体位置所对应的新训练样本集中,把属于亚叶绿体位置的蛋白质标记为正样本,不属于亚叶绿体位置的蛋白质标记为负样本;步骤3、基于步骤2所构建的针对每个亚叶绿体位置的新训练样本集,分别训练一个支持向量机预测器;步骤4、对于步骤2构建的每个亚叶绿体位置所对应的新训练样本集的每个蛋白质样本,除了新训练样本集所对应的亚叶绿体位置以外,把其他亚叶绿体位置对于该蛋白质样本的归属值追加到蛋白质样本的特征向量中,蛋白质样本属于某亚叶绿体位置,归属值设为1,否则设为‑1,以扩展蛋白质样本的特征空间,基于上述规则,分别更新每个亚叶绿体位置构建的训练样本集;步骤5、对于步骤4扩展特征空间后的每个训练样本集,使用遗传算法进行特征子集的选择,同时选取出与训练样本集对应的亚叶绿体位置最相关的氨基酸组成特征和其他亚叶绿体位置特征,去除无关和冗余的氨基酸组成特征和其他亚叶绿体位置特征,从而得到与每个亚叶绿体位置相对应的最优扩展特征子空间;步骤6、基于步骤5所得的针对每个亚叶绿体位置的最优扩展特征子空间,分别训练一个支持向量机预测器;步骤7、基于步骤3和步骤6所得的两组支持向量机预测器,对待预测蛋白质进行蛋白质亚叶绿体多位置预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业学院,未经郑州轻工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510782419.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





