[发明专利]基于人工蜂群繁殖机制的PPI网络聚类方法有效
申请号: | 201210232874.0 | 申请日: | 2012-07-06 |
公开(公告)号: | CN102779241A | 公开(公告)日: | 2012-11-14 |
发明(设计)人: | 雷秀娟;李永明;田建芳;裘国永;吴爽;尤梦丽 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 林兵 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工 蜂群 繁殖 机制 ppi 网络 方法 | ||
技术领域
本发明属于生物信息计算领域,具体涉及蛋白质交互作用(Protein-protein interaction,PPI)网络的自动获得聚类个数的聚类方法,PPI网络具有小世界、无尺度特性,本发明可推广并适用于其他小世界、无尺度网络的聚类问题。
背景技术
现有的聚类方法有很多种,主要包括:基于划分的方法、基于密度的方法、基于网络的方法、基于模型的方法、基于层次的方法、模糊聚类方法、谱聚类方法、功能流模拟方法、整体聚类方法等等。但是这些方法要么对应用领域和数据特性有特殊要求,要么方法本身存在一些缺陷,有些不适用于蛋白质相互作用(PPI)网络,有些对PPI网络的聚类效果不理想。
基于划分的方法以k_means和k_mediod为代表,对于大数据集该方法具有相对可伸缩性和高效性,但是该方法最大缺点在于必须事先知道要划分的目标类k的确定个数,且大都根据对象之间的距离进行聚类,只能发现球状的簇,不适合发现非凸面形状的簇,对于发现任意形状的簇遇到了困难,并且对孤立点是极其敏感的,但PPI网络恰恰形状不规则,有大量孤立点存在。
基于密度的方法将簇看作是数据空间中被低密度区域分隔开的稠密对象区域。该方法的主要思想是:只要邻域中的密度(对象或数据点的数目)超过某个阈值,就继续聚类,直至密度边缘。但是该方法的缺陷在于不能对存在大量稀疏结点的网络进行分类,因此对于存在有大量稀疏点PPI网络不适用。
基于网络的方法将空间划分为有矩形网格单元组成的网络,然后在网格单元上进行聚类。但是该方法的缺陷在于输入参数对聚类结果的影响很大,且这些参数比较难设置。当数据中有噪音时,如果不加特殊处理,方法的聚类质量会很差,并且该方法对于数据维度的可伸缩性较差。
基于模型的方法基本思想是:为每个聚类假设一个模型,再去发现符合模型的数据集对象,试图将给定的数据与某个数学模型达成最佳拟合,该方法可以通过构建反映数据点空间分布的密度函数来定位聚类,但是该方法的主要缺点在于对于要聚类的海量数据很难建立合适的、通用的模型。
基于层次的方法是根据给定的簇间距离度量准则,构造和维护一颗由簇和子簇形成的聚类树,直到满足某个终止条件为止。层次聚类方法的缺陷在于它对非球形簇和尺寸非均匀簇分裂以及孤立点非常敏感,该方法对噪声数据的鲁棒性比较差。
模糊聚类方法的主要思想是把需要识别的实物与模板进行模糊比对,从而得到所属的类别,其缺陷在于:聚类个数需要预先给定而且没有准则可遵循;只能识别团状的簇,不能识别不规则簇和带状簇,很多情况下对噪声点很敏感;对初始聚类中心敏感,容易陷入局部最优,难以取得全局最优或者整个聚类过程需要很长时间才能收敛到全局最优,从而影响聚类效果。
谱聚类方法本质的思想是将聚类问题转化成图的最优划分问题。谱聚类方法的大致流程是用将要聚类的数据样本构造一个相似度矩阵,计算此矩阵的特征值和特征向量,根据选用不同的特征向量,找出数据之间的内在联系,以达到聚类不同的数据目的。对特征向量采用不同的处理方法,就会产生不同的聚类方法。谱聚类方法虽然能在任意形状的样本空间上聚类,但对于海量数据聚类其邻域矩阵的选取和构造始终是一难题。
功能流模拟方法(Flow方法)比较符合蛋白质相互作用的实际效果,是目前国际上较为有效的一种PPI网络聚类方法。该方法采用了网络流的思想,这种方法与图割的概念有些相似。其思想是将每一个已功能注释过的蛋白质作为功能流方法中的一个“源点”,将自己的信息通过网络中的边“流”向其相邻的结点。这种流动方式有一些简单规则进行控制。该方法的缺陷在于时间复杂度较高,需要提前确定聚类个数,没有考虑到结点间距离的作用效果,而且还需要人为设定合并阈值。
整体聚类方法使用网络拓扑结构的距离度量对蛋白质网络进行初始聚类,然后使用基本聚类方法获得一系列的聚类结果,最后在该聚类集合上使用整体聚类方法得到最终的聚类结果。整体聚类方法的目标就是把多个独立不同的聚类融合成为单一的全面聚类,从而提高对无尺度网络聚类的质量。但此方法缺乏全局目标函数,每一步都需要局部地确定需要合并的聚类。此外,该方法的时间复杂度较高。
综上,上述聚类方法大都需要事先确定聚类个数,没有准则可遵循,因此是非常主观的,且这些方法的适应性普遍较差,对大型蛋白质相互作用网络都不能取得良好的聚类效果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210232874.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无线智能控制开关
- 下一篇:一种具有无线功能的急停开关
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用