[发明专利]基于活跃用户的微博数据挖掘方法有效
申请号: | 201210140531.1 | 申请日: | 2012-05-08 |
公开(公告)号: | CN102708176A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 江铭炎;王伟;袁东风;宋玉川 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 活跃 用户 数据 挖掘 方法 | ||
技术领域
本发明属于网络微博中的数据挖掘技术领域,特别是一种基于活跃用户的微博数据挖掘方法。
背景技术
微博作为Web 2.0时代崭新网络应用形式,不仅更加适应现代快节奏生活,而且实现随时随地的信息共享。通过一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。
由于实时性强、易接入性等特点,微博成为一种突发新闻消息传播迅速的新媒体。与传统媒体形式不同,在这个微博平台中,每个人都是一个信息发布者(“自媒体”的概念),随时随地实现信息共享。微博用户在新闻事件发生的第一时间参与评论转发,往往先于传统媒体作出反应和表达观点。因此基于微博实时数据的分析已经成为一个值得关注的研究方向。
从数据角度来看,微博是一个信息量极大的平台,具有数据格式混乱、噪声繁杂、有效价值难于提取等特点。传统的话题检测方法无法适应这种新形式,而且很难有效地从海量数据信息中提炼和检测突发热门事件。
目前微博信息的挖掘处于较为初级的阶段,大多停留在用户关系和社区结构分析上,很少直接对微博实时内容进行分析。主要是通过两种方式来获取微博原始数据:采用微博对外API的应用和基于网虫的微博用户页面解析。参考廉捷等新浪微博数据挖掘方案的分析,两者均存在较为明显的缺陷:微博对外的API的方式由于API服务商对API接口调用频率与查询范围的限制,加之本身API开发并不十分完善,因此不能实现微博数据的全面获取;而基于网虫的单用户微博页面方式由于缺少一定预先选择机制,存在一定用户选择的盲目性,同样也难免会造成错检漏检的现象。清华大学学报(自然科学版)2011年10期发表的“新浪微博数据挖掘方案”一文(作者:廉捷,周欣,曹伟,刘云)即属于此列。
发明内容
为克服现有技术的缺陷和不足,本发明提供了一种基于活跃用户的微博数据挖掘方法。以达到定时随机选取一批新的潜在用户、经过选择筛选进入有效挖掘用户群之目的,使传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。
为实现上述目的,本发明采用如下技术方案:
一种基于活跃用户的微博数据挖掘方法,步骤如下:
1)随机数产生器每10-30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;
随机数产生器产生6-9位随机数的规则如下:
由RAND()%10产生一位数字,从高位向低位依次产生,重复6-9次;
2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如http://weibo.com/ID;
3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;
4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;
5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;
6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;
7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;
8)采用基于网虫的页面解析方法,以10-30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;
9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;
10)动态更新实时话题模型,并以此来选择新的用户群体;
11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
上述的rand()%10表示将生成的随机数对10取余即获得了范围0~9的一个随机数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210140531.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置