[发明专利]一种基于微博数据的话题发现与追踪方法有效
申请号: | 201310316316.7 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103390051A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 孙国梓;黄斯琪;杨一涛;陈国兰;仇呈燕;郑冬亚 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 话题 发现 追踪 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于微博数据的话题发现与追踪方法。
背景技术
随着Web2.0的迅速发展和信息传播手段的进步,近年来微博成长为发展迅速且影响非常大的网络全民媒体形式。作为一种新的信息载体和传播途径,微博使网民可以更加方便地对各种产品以及服务进行评论,参与各种热点话题的讨论,在网络舆情信息发起与传播过程中起着越来越重要的作用。实时大规模增长的微博信息对于用户来说并不是全部都有价值的,需要自动地从海量微博信息中提取出能让用户感兴趣的热点话题,过滤掉无实际价值的冗余数据。
话题是事件相关报道的集合。网络中信息来源多种多样,其中包括公众所关心的热点话题,当然也可能存在着有关公共安全,社会稳定的敏感话题。事件随着时间,文化等诸多因素的影响,其发展状态会产生相应的变化。话题演化反映了某一个话题从他的产生,上升,下降以及结束的一个过程,随着时间的推移,话题的强度和内容都会发生变化,即存在话题的迁移。舆情分析就是通过对互联网上的海量文本数据进行分析,掌握主题的演化趋势,做出及时正确的预测,供决策者参考。
目前,传统话题演化主要应用在以新闻专线,广播,电视,博客,论坛社区等媒体为数据来源,通过一系列的数据挖掘方法并进行相似度比对来达到话题检测的目的。在该问题的研究中,来源信息中的文本是极为重要的信息。微博文本均为字数限制在140个字符以内的短文本,他们随时产生,数量巨大。由于字数的限制,用户通常都以更为精简的方式进行发表。文本形式自由、口语化、缩写、网络语言、拼写错误现象极为常见,并常嵌入超文本,如表情,图片,视频,网页链接等等。如果使用传统的通过构造词汇-文本特征矩阵的方式来分析话题,微博文本自身所独有的一些性质会造成特征矩阵高度稀疏,可想而知得到的检测结果也会大打折扣。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于设计了一种基于微博数据的话题发现与追踪方法,该方法是在大规模增量微博信息上进行实时数据分析,通过主题建模,实现话题自动归类生成,并根据话题内容和话题强度随时间的变化建立话题在时间轴上的关联与变化,总结话题演变的动态趋势。
本发明解决其技术问题所采用的技术方案是:本发明设计了一种基于微博数据的话题发现与追踪方法,该方法将海量增长的微博数据按照时序属性进行分块,并对时间窗口中的文本内容进行挖掘分析,提取出不同时间窗口中的话题,最后通过分析时间窗口间话题的继承性与同一性总结出微博话题变化趋势。该方法主要由数据预处理,时间窗口话题生成和时间窗口间话题关联分析等步骤完成。
方法流程:
步骤1:数据预处理
①忽略指向性对话互动消息。即忽略掉带有“@用户名”格式的微博信息,这类微博帖子往往不具有普遍话题的体现行,忽略后能够尽可能的消除只针对个人之间交互的噪声数据。
②原微博数据扩充。将微博正文中涉及到的URL中的信息抽取出并添加到微博信息中,支撑用户的观点描述。
③微博文本式化:对微博文本进行分词、去停用词、去除低频词和高频词的处理。综合考虑微博文本中的评论、转发、用户自定义标签(形如“#主题名#”的hashtag)以及内嵌外部链接(URL),运用修改后的TF-IDF权重算法。将每个微博帖子形式化,与一个多维词向量Wi相对应。
④去稀疏性:针对微博较短的数据文本,对其进行基于词向量的聚类处理。(即首先将微博分词后表示为单词向量,基于单词向量对微博用K均值算法进行聚类处理。假设聚类结果为K类,将每一类里的微博消息合并成单个文档,则得到了K个合成的微博文档D。)
步骤2:时间窗口内话题生成
①将经过预处理后的所有数据信息根据其时间信息离散到时间序列上对应的时间窗口t中,每个时间窗口中的集合为St={W1,W2,……WMt},这样原本连续的文本流分成了若干个时间窗口,其中每个时间窗口中的文档数目Mt可以相同也可以不同。
②去稀疏性。微博数据多为短句子甚至短语,针对其较为稀疏的数据内容,对其进行基于词向量的聚类处理。
③针对已经切分为时间片的微博文本,依次处理每个时间窗口内的文本集合,运用LDA模型进行话题模型建模,从中抽取出若干个主题T,并分别获得话题内容以及话题强度。其中每个窗口内生成的话题数量可以相同也可以不同,话题数量N由模型选择方法根据每个时间窗口中的微博文本内容动态生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310316316.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置