[发明专利]一种数据处理方法、装置、及计算机可读存储介质在审
| 申请号: | 201711277234.0 | 申请日: | 2017-12-06 |
| 公开(公告)号: | CN108320234A | 公开(公告)日: | 2018-07-24 |
| 发明(设计)人: | 姜雅文;徐海;张博;李博文;袁苏文;孙昊;超木日力格;江逸楠 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
| 主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06K9/62;H04L12/24 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 于金平 |
| 地址: | 100041 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似度 社区 数据处理 中心节点 计算机可读存储介质 数据处理装置 内部节点 算法 近似 网络 | ||
本发明提供了一种数据处理方法,包括以下步骤:将网络划分成多个社区;分别计算每个社区中内部节点间的相似度;确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为节点对应的社区的中心节点间的相似度。基于上述数据处理方法,本发明还提供了一种数据处理装置、及计算机可读存储介质。本发明的技术方案将网络划分成多个社区,降低了数据处理的规模,位于不同社区的节点间的相似度用各自社区的中心节点间的相似度进行近似,精度不受太大的影响,算法的效率大大提升。
技术领域
本发明涉及通讯技术领域,特别涉及一种数据处理方法、装置、及计算机可读存储介质。
背景技术
目前,网络中两用户之间的相似度计算方法有多种,典型的方法包括基于节点局部信息的方法和基于网络拓扑结构信息的方法。
基于节点局部信息的方法考虑节点的邻居信息。一般来说,如果网络中的两个节点有着相同或者相近的邻居节点,那么这两个节点被认为是相似的,基于该思想的相似度构造方法大致有以下三种:
假设Γi表示节点i的邻居集合,|Γi|表示该集合的势,|Γi∩Γj|表示节点i和节点j共有的邻居个数。可以定义如下三种相似度:
基于信号传递思想将网络拓扑结构信息转化为空间向量信息,它的基本思想是将网络中的节点当作具有接收和发射信号的节点,首先从网络中任选一个节点v,给v赋一个信号值,然后v向自己和自己的邻居节点发射该信号值,接到信号的节点记录并保存相应的信号值,同理,其它的节点也进行同样的接收和发送信号的过程,如此传递下去,经过T次传递之后,位于同一个社区里的节点对网络中其它节点传递的信号量是接近的。信号传递的过程可以用数学公式表示,即V=(I+A)T,I表示单位矩阵,A表示网络的邻接矩阵,T表示信号传递的次数。信号传递T次后,包含n个节点的网络中的每一个节点的信号量是一个n维向量,它表示的是该节点对网络其它节点的影响程度,这样n个节点就有n个n维向量,从而将网络空间拓扑结构的信息转化为了向量空间信息,再对其进行标准化之后就可以运用各种空间距离计算相应的相似度矩阵对其进行聚类。
如果一个节点相似于另一个节点的邻居节点,那么也认为这两个节点是相似的,基于这个思想,Leicht E.A.等人提出了另一种基于网络拓扑结构的节点相似度构造方法,简称为regular方法:
该方法采用一种迭代的思想,假设A为网络的邻接矩阵,T(i)表示中间矩阵,
Sregular=D-1*T(t)*D-1 (6)
其中,In表示n*n的单位矩阵,a是一个收敛参数,λ1是邻接矩阵的最大特征值,D是对角矩阵,对角线的元素依次是每个节点的度,t表示最大的迭代次数。
但是,在上述的数据处理方法中,由于需要计算大量的位于不同社区节点之间的相似度,导致数据处理规模大、计算量大。
发明内容
为了解决现有技术中用户相似度计算时数据处理规模大、计算量大的问题,本发明提供了一种数据处理方法、装置、及计算机可读存储介质。
本发明提供的数据处理方法,包括:
将网络划分成多个社区;
分别计算每个社区中内部节点间的相似度;
确定每个社区的中心节点,将隶属不同社区的节点间的相似度表示为所述节点对应的社区的中心节点间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711277234.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:账单的注释生成方法、装置和计算机可读存储介质
- 下一篇:一种监测管理系统





