[发明专利]一种基于社区检测的频繁子图挖掘方法在审
| 申请号: | 202210382776.9 | 申请日: | 2022-04-13 |
| 公开(公告)号: | CN114661927A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 袁野;张义;马德龙;马玉亮 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/535 | 分类号: | G06F16/535;G06F16/55;G06F16/58;G06Q50/00 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 社区 检测 频繁 挖掘 方法 | ||
1.一种基于社区检测的频繁子图挖掘方法,其特征在于,包括:
步骤1:对获取的社交网络数据进行预处理;
步骤2:对处理后的社交网络进行社区检测工作,得到社区集合;
步骤3:对社区集合中的每个社区进行抽样,得到子图扩展起始集合
步骤4:根据集合对图数据进行频繁子图挖掘。
2.根据权利要求1所述的一种基于社区检测的频繁子图挖掘方法,其特征在于,所述步骤1包括:
步骤1.1:统计社交网络数据中顶点标签和边标签的频数;
步骤1.2:通过设置频繁阈值τ,对统计得到的顶点标签和边标签的频数小于τ值的顶点和边,记为非频繁的顶点和非频繁的边;
步骤1.3:将所有非频繁的顶点和边从图数据中移除,图数据中剩余顶点个数,记为m;
步骤1.4:将剩余的顶点进行编号重构;
步骤1.5:根据重构后的顶点对边进行重构,根据顶点映射函数f,将边的起点和终点编号修改为重构后的顶点编号。
3.根据权利要求2所述的一种基于社区检测的频繁子图挖掘方法,其特征在于,所述步骤1.4包括:
步骤1.4.1:将顶点按照标签聚类分组,并根据组中顶点个数对组进行降序;
步骤1.4.2:每个分组内顶点按照顶点编号升序;
步骤1.4.3:根据步骤1.4.1和步骤1.4.2中所述排序规则,将图数据中剩余的顶点从0~(m-1)重新编号,得到重构后的顶点集合V′={v′0,v′1,…,v′m-1};
步骤1.4.4:保存重构后的顶点编号与重构前顶点编号的映射,映射函数f:使得f(u)=v;其中,重构前的顶点集合V={v1,v2,…,vn},n≥m。
4.根据权利要求1所述的一种基于社区检测的频繁子图挖掘方法,其特征在于,所述步骤2包括:
步骤2.1:对每个顶点计算其k-shell值,顶点k-shell值指顶点所在的k最大连通子图,子图中的每个顶点度数至少为k,记顶点v的k-shell值为Ks(v);
步骤2.2:为图数据中的每个顶点初始化分配一个从0~(m-1)唯一的社区标签;
步骤2.3:对每个顶点v,根据公式(1)计算顶点重要性VI(v):
式中,α为0~1的之间的可变参数,d(u)为顶点u的度数,N(v)为顶点v的邻接顶点集合,Ks(u)为顶点u的k-shell值;
步骤2.4:按照重要性对顶点进行降序,并将降序序列作为顶点标签更新顺序,降序序列记为Seq;
步骤2.5:初始化迭代变量t=1;
步骤2.6:按照Seq的顺序,将每个顶点的社区标签更改为相邻顶点中社区标签携带数量最多的标签;
步骤2.7:当有多个社区标签携带数量达到最大值时,根据公式(2)计算社区标签的重要性LI(v,l),选择重要性LI(v,l)最大的社区标签进行赋值;
式中,Nl(v)表示待修改社区标签顶点v相邻顶点中社区标签为l的顶点集合,VI(u)为顶点u的重要性;
步骤2.8:令t=t+1,跳转到步骤2.6,当t大于最大迭代次数,或所有的顶点在上一次迭代中没有任何顶点的社区标签被修改时,循环终止;
步骤2.9:将图数据中所有的顶点按照标签进行聚类,得到社区集合。
5.根据权利要求1所述的一种基于社区检测的频繁子图挖掘方法,其特征在于,所述步骤3包括:
步骤3.1:将每个社区集合中社区的顶点,根据顶点度数进行聚合,聚合得到的集合记为其中i为顶点的度数,l为社区编号;
步骤3.2:设置采样因子δ,从每个集合中随机抽取顶点;
步骤3.3:将抽取的顶点保存到
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210382776.9/1.html,转载请声明来源钻瓜专利网。





