[发明专利]一种基于Spark环境下的微博网络关键用户挖掘系统及方法有效
申请号: | 201810233886.2 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108509551B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 高岭;王伟;罗钊;杨康;曹瑞 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06Q50/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法,该系统综合了社交网络拓扑结构和用户综合信息两方面内容,提出了在大规模社交网络中关键用户挖掘的整体框架。通过引入用户主题相似度来表示用户间社群关系的强弱,并应用Louvain社群发现算法,既保证了社群发现的高效率,又使得划分结果相对准确;依据微博用户的权威性、传播性、交互性和链接性四个评价指标,相比于已有的用户影响力评价方法,扩展了评价指标的多样性,增强了评价结果的全面性;计算中引入主流的Spark大数据计算平台,让整个关键用户挖掘既有完整的实施过程,又有实际应用的环境条件。 | ||
搜索关键词: | 一种 基于 spark 环境 网络 关键 用户 挖掘 系统 方法 | ||
【主权项】:
1.一种基于Spark环境下的社交网络关键用户挖掘系统,其特征在于,所述挖掘系统包括用户数据获取子系统(11)、数据存储与管理子系统(12)、用户社群挖掘子系统(13)、用户综合影响力评估子系统(14);其中:用户数据获取子系统(11),用以完成用户个人信息、网络关系信息和历史行为数据的采集,并据此生成用户关系数据集和用户多维度属性数据集;数据存储与管理子系统(12),用以完成用户个人信息、网络关系信息、历史行为信息、用户多维度特征集等数据信息的存储与管理;用户社群挖掘子系统(13),用以完成依据用户关注关系、用户主题相似度的社群发现,挖掘用户社群;用户综合影响力评估子系统(14),根据用户社群划挖掘子系统(13)所划分的用户社群,用以完成依据用户的权威性、传播性、交互性和链接性四个评价指标构建用户评价模型,进行用户综合影响力评估;所述用户数据获取子系统(11)进一步包括:用户数据采集模块(111)、用户数据解析和生成模块(112);其中:所述用户数据采集模块(111),用以根据用户微博ID,采用网络爬虫和微博API接口相结合方式对微博用户的个人信息、关注关系和行为信息进行分布式爬取;所述用户数据解析和生成模块(112),用以实现对爬取用户信息的解析、抽取和分类,获取用户的个人属性信息、网络关系信息、历史行为信息等;所述用户社群挖掘子系统(13)进一步包括:用户主题提取模块(131)、用户主题相似度计算模块(132)、用户社群划分模块(133);其中:所述用户主题提取模块(131),针对微博用户发表博文信息,采用LDA文档主题提取算法,确定用户发表博文主题分布概率,获取用户博文主题分布概率向量;所述用户主题相似度计算模块(132),用以针对当前用户和其关注用户间社群关系的强弱,采用用户博文主题分布概率向量来表示用户兴趣偏好,并根据其量化值计算用户间的主题相似度;所述用户社群划分模块(133),将微博网络映射为以用户为结点,关注关系为边,用户主题相似度为边权值的有向加权网络,并应用Louvain社群发现算法挖掘用户社群;所述用户综合影响力评估子系统(14)进一步包括:用户权威性计算模块(141)、用户传播性计算模块(142)、用户交互性计算模块(143)、用户链接性计算模块(144)、用户综合影响力计算模块(145),其中:所述用户权威性计算模块(141),用以依据用户数据获取子系统(11)获取的用户基本信息,如用户活跃粉丝数、微博等级、原创微博数、背景学历、专业技能等,评价用户的可信度和权威性;所述用户传播性计算模块(142),用以依据用户数据获取子系统(11)获取的他人对用户的交互行为信息,如对用户发表博文的转发、评论、点赞、提及、收藏等行为,评价用户的话题影响力;所述用户交互性计算模块(143),用以依据用户数据获取子系统(11)获取的用户对他人的交互行为信息,如对他人发表博文的转发、评论、点赞、提及、收藏等行为,评价用户的社交主动性;所述用户链接性计算模块(144),用以依据用户数据获取子系统(11)获取的用户关注关系信息,根据计算节点的度,评价用户在网络拓扑中节点的重要程度;所述用户综合影响力计算模块(145),用以依据用户权威性计算模块(141)、用户传播性计算模块(142)、用户交互性计算模块(143)、用户链接性计算模块(144)四个模块在用户综合影响力评价中的权重,从用户综合信息和网络拓扑结构两方面衡量用户在社交网络中的综合影响力。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810233886.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种支持协作处理查询的空间索引结构及其构造方法
- 下一篇:一种文本分类方法