[发明专利]一种基于Spark环境下的微博网络关键用户挖掘系统及方法有效
申请号: | 201810233886.2 | 申请日: | 2018-03-19 |
公开(公告)号: | CN108509551B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 高岭;王伟;罗钊;杨康;曹瑞 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06Q50/00 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 环境 网络 关键 用户 挖掘 系统 方法 | ||
一种基于Spark环境下的微博网络关键用户挖掘系统及方法,该系统综合了社交网络拓扑结构和用户综合信息两方面内容,提出了在大规模社交网络中关键用户挖掘的整体框架。通过引入用户主题相似度来表示用户间社群关系的强弱,并应用Louvain社群发现算法,既保证了社群发现的高效率,又使得划分结果相对准确;依据微博用户的权威性、传播性、交互性和链接性四个评价指标,相比于已有的用户影响力评价方法,扩展了评价指标的多样性,增强了评价结果的全面性;计算中引入主流的Spark大数据计算平台,让整个关键用户挖掘既有完整的实施过程,又有实际应用的环境条件。
技术领域
本发明涉及社交网络数据挖掘技术领域,具体涉及一种基于Spark环境下的微博网络关键用户挖掘系统及方法。
背景技术
随着移动互联网的快速发展,社交网络平台具有越来越丰富的功能和属性,以微信、微博为代表的社交网络平台日活跃用户数均在上亿规模。对社交网络数据进行深入研究,挖掘用户关系、社群研究、舆情监控和用户推荐等方面越来越成为学术界和产业界关注的焦点。
微博平台由于其传播性强、用户量庞大、操作简单等原因成为社交媒体中的重要平台,其高价值用户比例高达76.3%。2018年2月13日,微博发布2017年第四季度财报,2017年12月的月活跃用户数(MAUs)较上年同期净增约7900万,达到3.92亿。月活跃用户数中93%为移动端用户。2017年12月平均日活跃用户数(DAUs)较上年同期净增约3300万,达到1.72亿。庞大的用户群和快速的增长量使得微博平台产生的数据量持续高速增长,信息传播属性不断增强、网络关系结构更加复杂,其中蕴含的数据价值也日益成为人们关注的热点。
微博用户研究是社交网络数据挖掘的主要方面,挖掘用户关系,提取潜在价值信息能够使社交网络平台产生重要的商业和社会效益。一般来说,社交网络上亿级的用户规模让用户研究很难精准到每一个人,从用户网络中挖掘出有代表性的关键用户或关键群体,并对他们进行分析和研究是进行用户分析研究的重要手段。社交网络关键用户的一大特点是其发表的消息传播快速且影响广泛,其发表或转发的话题在社交网络上引起众多用户关注、转载或评论,从而形成热点新闻或事件,是对社会舆论有较大影响力的一类用户。通过对社交平台上用户信息的研究发现,关键用户和一般的微博用户在某些特点上有很大的区别,通过综合研究这些信息上的区别和特点可以比较客观的对社交网络用户进行影响力排名,进而挖掘出网络中的关键用户。
已有的社交网络关键用户挖掘方法或因为较少考虑用户综合信息、微博网络拓扑结构等,或仅适用于特定小规模场景且计算过程复杂,导致了挖掘结果不准确、效率不高,在大规模社交网络环境下对关键用户的挖掘效果都不理想。
发明内容
本发明的主要目的在于提供一种基于Spark环境下的微博网络关键用户挖掘系统及方法,通过结合网络社群划分和用户多维度综合影响力评价模型从网络拓扑结构和用户综合信息两方面入手,给出了在大规模社交网络中关键用户挖掘的整体框架。通过引入用户主题相似度来表示用户间社群关系的强弱,并应用Louvain社群发现算法,既保证了社群发现的高效率,又使得划分结果相对准确;依据微博用户的权威性、传播性、交互性和链接性四个评价指标,相比于已有的用户影响力评价方法,扩展了评价指标的多样性,增强了评价结果的全面性;本系统所有数据处理均在Spark分布式计算框架中进行,适应大规模数据场景需求,能够准确、高效地挖掘大规模社交网络中的关键用户。
为实现上述目的,本发明的技术实现方式如下:
一种基于Spark环境下的社交网络关键用户挖掘系统,所述挖掘系统包括用户数据获取子系统(11)、数据存储与管理子系统(12)、用户社群挖掘子系统(13)、用户综合影响力评估子系统(14);其中:
用户数据获取子系统(11),用以完成用户个人信息、网络关系信息和历史行为数据的采集,并据此生成用户关系数据集和用户多维度属性数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810233886.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种支持协作处理查询的空间索引结构及其构造方法
- 下一篇:一种文本分类方法