[发明专利]基于活跃用户的微博数据挖掘方法有效
申请号: | 201210140531.1 | 申请日: | 2012-05-08 |
公开(公告)号: | CN102708176A | 公开(公告)日: | 2012-10-03 |
发明(设计)人: | 江铭炎;王伟;袁东风;宋玉川 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于活跃用户的微博数据挖掘方法,属于网络微博中的数据挖掘技术领域,本发明方法首先定时随机选取一批新的潜在用户,经过选择筛选进入有效挖掘用户群,这样不断更新产生新的活跃用户,从而保证了数据的全面性;然后,传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。本发明方法通过预先用户的选择更新机制,保证挖掘数据的全面性和有效性,实时维护更新每个话题的挖掘用户群体。同时,已有实时的话题模型再次更新有效用户群体,保证挖掘用户的时效性。 | ||
搜索关键词: | 基于 活跃 用户 数据 挖掘 方法 | ||
【主权项】:
一种基于活跃用户的微博数据挖掘方法,步骤如下:1)随机数产生器每10‑30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;随机数产生器产生6‑9位随机数的规则如下:由RAND()%10产生一位数字,从高位向低位依次产生,重复6‑9次;2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如http://weibo.com/ID;3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;8)采用基于网虫的页面解析方法,以10‑30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号@和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;10)动态更新实时话题模型,并以此来选择新的用户群体;11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210140531.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置