[发明专利]一种基于弱可信数据的跨社群潜在人物关系分析方法有效
| 申请号: | 201811310355.5 | 申请日: | 2018-11-05 |
| 公开(公告)号: | CN109492027B | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 孙国梓;吕建伟;李华康 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/901;G06Q50/00 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
| 地址: | 210003 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 可信 数据 社群 潜在 人物 关系 分析 方法 | ||
1.一种基于弱可信数据的跨社群潜在人物关系分析方法,其特征在于,包括步骤:
(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;
(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;
(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;
(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;
(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户节点u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户;
所述用户间的结构身份相似度的计算方法为:
将所有用户归入顶点集V,将用户社群图中的边归入边集合E,形成无权重的无向图G,G=(V,E);选取直接相连的两个节点u和v,以u为中心节点扩展加权多层图的第k层邻居,得到用户社群G(u),以v为中心节点扩展加权多层图的第k层邻居,得到用户社群G(v);计算u和v之间的结构身份相似度fk(u,v):
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0|Rk(u)|,Rk(v)>0
其中,Rk(u)表示G中距离u为加权多层图的第k层的节点的集合,Rk(v)表示在G中距离v为加权多层图的第k层的节点的集合;s(S)表示集合S的有序度序列;g(s(Rk(u)),s(Rk(v)))表示采用动态时间规整算法计算出的两个有序度序列s(Rk(u)),s(Rk(v))之间的距离;d(a,b)表示距离函数,其中,a为s(Rk(u))中的元素,b为s(Rk(v))中的元素;max(a,b)表示取a,b中的最大值,min(a,b)表示取a,b中的最小值;
所述社群图结构相似度的计算方法为:
(3-1)构造一个加权多层图,所述用户社群图中的所有节点存在于加权多层图的每一层中,定义加权多层图的第k层中u和v之间边的权重为Wk(u,v),k*为在无向图G中所能取到的k的最大值;
(3-2)根据步骤(3-1)计算出的权重,计算加权多层图的第k层的社群图结构相似度为:
所述无直接边相连的任意两个用户节点之间的相关系数的计算方法为:
设m和n为两个无直接边相连的用户节点,m∈G(u),n∈G(v);d(u,v)用户节点u和v在图G中相似距离,gk(u,m)表示所述加权多层图的第k层中m距离u的跳数;定义m和n之间的相关系数为η,η越大表示m和n之间的潜在关系越近;η的计算公式为:η(m,n)=α*d(m,n)+(1-α)(gk(u,m)+gl(v,n)),α为常数系数;
所述步骤(1)中获取网页或社交网站上匿名用户的公开数据的方法为:
借助redis技术和页面请求库request技术以及解析库beautifulSoup构建分布式爬虫,从网页或社交网站上爬取匿名用户的公开数据;
所述属性包括:用户ID,姓名,邮箱,电话,从事工作类型,工作单位,好友,加入的群组,所在城市,签到过的地点,兴趣爱好,教育背景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811310355.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





