[发明专利]基于人工蜂群繁殖机制的PPI网络聚类方法有效

专利信息
申请号: 201210232874.0 申请日: 2012-07-06
公开(公告)号: CN102779241A 公开(公告)日: 2012-11-14
发明(设计)人: 雷秀娟;李永明;田建芳;裘国永;吴爽;尤梦丽 申请(专利权)人: 陕西师范大学
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 西安恒泰知识产权代理事务所 61216 代理人: 林兵
地址: 710062 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 人工 蜂群 繁殖 机制 ppi 网络 方法
【说明书】:

技术领域

发明属于生物信息计算领域,具体涉及蛋白质交互作用(Protein-protein interaction,PPI)网络的自动获得聚类个数的聚类方法,PPI网络具有小世界、无尺度特性,本发明可推广并适用于其他小世界、无尺度网络的聚类问题。

背景技术

现有的聚类方法有很多种,主要包括:基于划分的方法、基于密度的方法、基于网络的方法、基于模型的方法、基于层次的方法、模糊聚类方法、谱聚类方法、功能流模拟方法、整体聚类方法等等。但是这些方法要么对应用领域和数据特性有特殊要求,要么方法本身存在一些缺陷,有些不适用于蛋白质相互作用(PPI)网络,有些对PPI网络的聚类效果不理想。

基于划分的方法以k_means和k_mediod为代表,对于大数据集该方法具有相对可伸缩性和高效性,但是该方法最大缺点在于必须事先知道要划分的目标类k的确定个数,且大都根据对象之间的距离进行聚类,只能发现球状的簇,不适合发现非凸面形状的簇,对于发现任意形状的簇遇到了困难,并且对孤立点是极其敏感的,但PPI网络恰恰形状不规则,有大量孤立点存在。

基于密度的方法将簇看作是数据空间中被低密度区域分隔开的稠密对象区域。该方法的主要思想是:只要邻域中的密度(对象或数据点的数目)超过某个阈值,就继续聚类,直至密度边缘。但是该方法的缺陷在于不能对存在大量稀疏结点的网络进行分类,因此对于存在有大量稀疏点PPI网络不适用。

基于网络的方法将空间划分为有矩形网格单元组成的网络,然后在网格单元上进行聚类。但是该方法的缺陷在于输入参数对聚类结果的影响很大,且这些参数比较难设置。当数据中有噪音时,如果不加特殊处理,方法的聚类质量会很差,并且该方法对于数据维度的可伸缩性较差。

基于模型的方法基本思想是:为每个聚类假设一个模型,再去发现符合模型的数据集对象,试图将给定的数据与某个数学模型达成最佳拟合,该方法可以通过构建反映数据点空间分布的密度函数来定位聚类,但是该方法的主要缺点在于对于要聚类的海量数据很难建立合适的、通用的模型。

基于层次的方法是根据给定的簇间距离度量准则,构造和维护一颗由簇和子簇形成的聚类树,直到满足某个终止条件为止。层次聚类方法的缺陷在于它对非球形簇和尺寸非均匀簇分裂以及孤立点非常敏感,该方法对噪声数据的鲁棒性比较差。

模糊聚类方法的主要思想是把需要识别的实物与模板进行模糊比对,从而得到所属的类别,其缺陷在于:聚类个数需要预先给定而且没有准则可遵循;只能识别团状的簇,不能识别不规则簇和带状簇,很多情况下对噪声点很敏感;对初始聚类中心敏感,容易陷入局部最优,难以取得全局最优或者整个聚类过程需要很长时间才能收敛到全局最优,从而影响聚类效果。

谱聚类方法本质的思想是将聚类问题转化成图的最优划分问题。谱聚类方法的大致流程是用将要聚类的数据样本构造一个相似度矩阵,计算此矩阵的特征值和特征向量,根据选用不同的特征向量,找出数据之间的内在联系,以达到聚类不同的数据目的。对特征向量采用不同的处理方法,就会产生不同的聚类方法。谱聚类方法虽然能在任意形状的样本空间上聚类,但对于海量数据聚类其邻域矩阵的选取和构造始终是一难题。

功能流模拟方法(Flow方法)比较符合蛋白质相互作用的实际效果,是目前国际上较为有效的一种PPI网络聚类方法。该方法采用了网络流的思想,这种方法与图割的概念有些相似。其思想是将每一个已功能注释过的蛋白质作为功能流方法中的一个“源点”,将自己的信息通过网络中的边“流”向其相邻的结点。这种流动方式有一些简单规则进行控制。该方法的缺陷在于时间复杂度较高,需要提前确定聚类个数,没有考虑到结点间距离的作用效果,而且还需要人为设定合并阈值。

整体聚类方法使用网络拓扑结构的距离度量对蛋白质网络进行初始聚类,然后使用基本聚类方法获得一系列的聚类结果,最后在该聚类集合上使用整体聚类方法得到最终的聚类结果。整体聚类方法的目标就是把多个独立不同的聚类融合成为单一的全面聚类,从而提高对无尺度网络聚类的质量。但此方法缺乏全局目标函数,每一步都需要局部地确定需要合并的聚类。此外,该方法的时间复杂度较高。

综上,上述聚类方法大都需要事先确定聚类个数,没有准则可遵循,因此是非常主观的,且这些方法的适应性普遍较差,对大型蛋白质相互作用网络都不能取得良好的聚类效果。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210232874.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top