[发明专利]一种同时基于节点属性以及结构关系相似度的聚类方法有效
申请号: | 201310055977.9 | 申请日: | 2013-02-21 |
公开(公告)号: | CN103106279B | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 贝毅君;张炳威;林臻;郑小林;赵晨 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 节点属性 结构关系 聚类结果 重复计算 相似度 权重 存储优化 复杂网络 距离估算 十字链表 实时更新 实时获取 统一模型 拓扑结构 稀疏矩阵 性能问题 应用性 自调整 自适应 算法 网络 统一 | ||
本发明公开了同时基于节点属性以及结构关系相似度的聚类方法,首先,根据节点属性和拓扑结构关系提出了统一距离估算模型。然后,针对节点属性以及结构的权重设定问题,提出了权重自调整算法。接着,提出了基于十字链表的稀疏矩阵计算和存储优化方法以提高本聚类方法的性能。最后,不断变化的网络对聚类方法造成大量重复计算以及不能实时更新聚类结果的问题,提出了自适应的聚类方法。本发明解决了复杂网络统一模型和性能问题,以及避免了大量重复计算并且满足了实时获取聚类结果的要求,提高了本聚类方法的实际应用性。
技术领域
本发明涉及聚类分析技术领域,具体涉及一种同时基于节点属性以及结构关系相似度的聚类方法。
背景技术
图是现代计算机研究领域的重要数据结构。随着科学技术地不断发展,越来越多的数据以图作为表达形式,例如生物网络、社会网络以及蛋白质网络等等。特别的,如今社会网络图已变成最复杂的网络之一。如何有效地管理和挖掘海量的图数据已变成图数据库研究的核心问题,特别是针对有效的社交网络数据挖掘,发现用户特征和进行有效的聚类问题,已经变成了新时期的关键问题。社交网络中的聚类问题,是根据用户特征和用户之间的关系对用户进行划分群组的问题。社交网络的聚类技术在用户检测,用户推荐等领域有着举足轻重的地位,如腾讯的朋友圈、豆瓣的兴趣小组,以及Linkedin、facebook等对新成员的关系推荐等,而同时,这也是非常具有挑战性的研究工作。
公告号为CN102184215B的中国专利公开了一种基于数据场的自动聚类方法,通过将每个空间数据看成一个具有质量的数据点,空间数据之间彼此相互影响形成一个数据场,数据场的势值则表现为所有数据点在该处的影响力的总和,数据场势值的一阶偏导势值为零的点即为数据叠加作用最为密集的区域,即数据的簇中心,进而根据这些簇中心向两侧搜索并确定簇的边缘,最终将完整的簇标记出来。
公告号为CN102184216B的中国专利公开了一种基于数据场划分网格的自动聚类方法,将划分所得每个网格看成一个具有质量的数据点,它们之间彼此相互影响形成数据场,所有数据点之间的相互叠加作用表现为数据场的势值,首先通过搜索数据场势值的局部极大值来发现数据的簇中心,进而根据簇中心相周围搜索并确定簇的边缘,最终将整个簇搜索出来,可以被应用于图像处理、社区发展、异常检测、市场研究等领域。
基于节点属性和拓扑结构的图聚类问题跟传统的关系型数据库的聚类问题有着重要的区别,传统聚类方法只包括用户的属性特征或者用户之间的关系,而不能建立一个统一的挖掘模型。基于节点属性的方法只关注共同的属性特征,却使得用户都是一个个孤立的个体。而基于拓扑结构的聚类过程忽略了属性特性,使得不同属性的个体不能根据属性特征选择更适合的群体,比如根据min cut或者根据min ratio方法最小化集群间的结构关系的聚类挖掘。同时,面对不断变化的海量数据计算,如何有效的管理和处理数据,以及如何根据环境调整结果避免重复计算也变的非常重要。
由于分割节点属性和拓扑结构的聚类方法并不能解决复杂网络的聚类问题,以及变化的环境对聚类过程的影响,有必要提出一个更加全面的聚类算法解决复杂网络的聚类问题,使决策者或者最新最快的信息,及时做出正确的决策。
发明内容
本发明提供了一种同时基于节点属性以及结构关系相似度的聚类方法,该聚类方法应用于社会网络时,能够同时兼顾各个实体的属性信息和关系信息,聚类结果更加合理。
一种同时基于节点属性以及结构关系相似度的聚类方法,包括以下步骤:
(1)以社会化网络图中的每一个实体为基础创建一个普通节点,提取各个实体的属性信息创建属性节点,以各个实体之间的关系为基础创建结构关系,得到增广网络图;
其中,属性节点包括属性类别和属性值;
属性节点的类别数为m,定义每个类别的属性节点的权重为ω1,ω2,……,ωm;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310055977.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可变指数求平均检测器和动态范围控制器
- 下一篇:用于电子设备的盖