[发明专利]膜蛋白分类在线预报方法无效
申请号: | 200710171805.2 | 申请日: | 2007-12-06 |
公开(公告)号: | CN101187960A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 金雨欢;陆文聪;钮冰;刘亮;王丽 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F15/18 |
代理公司: | 上海上大专利事务所 | 代理人: | 何文欣 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 膜蛋白 分类 在线 预报 方法 | ||
技术领域
本发明涉及一种基于Bagging方法的膜蛋白分类建模方法,同时涉及膜蛋白分类预报的Web服务实现方法。
背景技术
作为生物化学的一部分,膜蛋白研究成为实验和理论领域都很热门的一个焦点。膜蛋白是一类结构独特的蛋白质,它镶嵌于膜脂的特性使这一蛋白处于细胞与外界的交界部位,是细胞执行各种功能的物质基础,且可以形成膜受体、载体、酶和抗原等。根据膜蛋白与脂双层之间的作用模式,可以分为如下5个类型:(1)type-I membraneprotein;(2)type-II membrane protein;(3)multipass transmembrane proteins;(4)lipidchain-anchored membrane proteins;(5)GPI-anchored membrane proteins。随着基因组学和蛋白组学的发展,生物信息的信息量的增长极为迅速,而膜蛋白在Genbank中的数目也相应增长。在膜蛋白结构与功能研究的具体领域,膜蛋白的类型是一项重要性能。通过实验方法和分子生物学的方法来测定膜蛋白类型难以满足迅速增长的膜蛋白序列的需求,因此利用数据挖掘技术来预报膜蛋白序列很重要。Bagging是由Breiman在1996年提出的一项机器学习方法。它通过把多种机器学习方法组合起来,得到一个分类器。由于它在分类问题中的突出性能,被越来越多用于生物和社会科学中的分类和预报问题中。
发明内容
本发明的目的在于针对膜蛋白类型预测迅速增长的需求,提供一种膜蛋白类型在线预报方法。能够基于普通的Web客户端,单个或者批量预测膜蛋白序列的膜蛋白类型。
为达到上述目的,本发明采用下述方案:
一种膜蛋白分类在线预报方法,其特征在于利用机器学习方法Bagging,对一个膜蛋白数据库样本进行学习,输出学习模型;由预报器载入该学习模型,输入数据传输器将Web客户端提交的膜蛋白序列码转换为只包含“0”和“1”的数据,输出模蛋白分类预测结果,通过Servlet组件返回到Web客户端。
上述的膜蛋白分类在线预报方法的具体操作步骤为:
(1)构建膜蛋白分类模型;
(2)进行膜蛋白分类预报。
上述的膜蛋白分类在线预报方法中的构建模蛋白分类模型的步骤为:
①采集训练本集:采集自互联网上的蛋白质数据库,该数据库的数据都已明确膜蛋白分类类型;通过计算机程序,将蛋白序列码转换成为只包含“0”和“1”的数据作为自变量,目标变量是膜蛋白分类类型;
②Bagging方法学习:用Java编程语言实现Bagging算法;
③输出学习模型:上述的Bagging方法学习完成对样本数据的学习,得到膜蛋白分类的预报模型,将此模型对象进行序列化。
上述的膜蛋白分类在线预报方法中的进行膜蛋白分类预报的步骤如下:
①将膜蛋白分类预报模型输入预报组件;
②输入数据经数据转换器转换后输入预报组件;
③预报组件读取膜蛋白分类预报模型,载入转换后的输入数据,进行处理后得到膜蛋白分类信息的预报结果;
④预报组件输出预报结果至Servlet组件返回至Web客户端,完成一次膜蛋白分类预报工作。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明基于Bagging学习方法对膜蛋白分类建模,依据建立的膜蛋白分类预报模型,实现在线预报结果。本发明能够基于普通的Web客户端单个或者批量预测膜蛋白序列的膜蛋白类型。
附图说明
图1描叙了构建膜蛋白分类模型的工作流程。
图2描叙了膜蛋白分类预报的工作流程。
具体实施方式
本发明的一个优选实施例结合附图说明如下:
在膜蛋白分类预报系统中,对预报准确率至关重要的就是膜蛋白分类模型的好坏与否,具有代表性与否。随着生物信息学的发展,膜蛋白数据库的信息量也与日俱增,为了提高膜蛋白分类的预报准确率,分类模型也应该随之更新。所以将膜蛋白分类模型与膜蛋白分类模型创建器和膜蛋白分类预报器之间相互独立分开是一个重要的措施。
图1示出本实施例中的构建膜蛋白分类模型的工作流程,其中步骤如下:
①图1中的测试样本,采集自互联网上的蛋白质数据库,都已经明确膜蛋白分类类型。通过计算机程序,将膜蛋白序列码转换成为只包含“0”和“1”的数据作为自变量,目标变量是膜蛋白分类类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710171805.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:开启式灯箱框
- 下一篇:一种大叶千斤拔的人工繁殖方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用