[发明专利]一种中文微博客的热点话题检测方法有效
| 申请号: | 201410034402.3 | 申请日: | 2014-01-24 |
| 公开(公告)号: | CN103745000B | 公开(公告)日: | 2017-02-01 |
| 发明(设计)人: | 陈国龙;廖祥文;郭德清;郭文忠;魏晶晶 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 博客 热点话题 检测 方法 | ||
技术领域
本发明涉及话题检测与跟踪技术领域,更具体地,涉及一种中文微博客的热点话题检测方法,能应用于热点话题的检测和热度排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
话题检测与跟踪(TDT)任务始于1996年,一个话题包含了一系列事件或者活动,或者伴随的直接相关的事件和活动。一个TDT事件表示在特定时间和场合发生的事情,连同所有必要的先决条件和不可避免的后果。
话题检测与跟踪经过十多年的高速发展,已经有了一系列成熟的理论,其中包括隐马尔可夫模型、老化理论、时间序列分析、LDA等。
热点话题是在一个时间段内频繁出现的话题。一个话题经常出现表示它可能是热点话题,但是这不是唯一的条件。每件事都有它的生命周期:出生、发展、衰落、死亡。所以,时间也是一个评价条件。热点话题的基本特征:1)在大量的信息中频繁出现;2)热点话题是从当前网络用户发布的微博中抽取的,所以是实时的,必须保证热点话题的“热”。
热点话题是话题检测与跟踪研究在实际问题中的应用。常见的话题发现算法,如中心向量法、层次聚类法、K-means、Single-Pass聚类算法等,在普通文本的TDT任务中已经取得了较好的效果。利用聚类方法来实现话题发现的技术已经比较成熟,但是在处理海量的文本数据时,大多数文本聚类算法速度过低,时间和空间复杂度往往大于O(n2)。而且这些算法主要是针对传统媒介平台的新闻数据,微博中的信息多呈现短文本、口语化、即时性、冗余信息、互动性强等特性,其中情感词所占比重也比传统文本要大,故传统的TDT不适合直接应用于微博的热点发现。
在现有技术中,有将传统的文本分类方法应用在微博平台上进行热点信息筛选,针对可能成为热点信息的微博条目,有研究者提出可以针对一部分特别关心的信息进行检测。如果能设计一种切合当前热点事件的分类器,那么就可以实时监控事件的发展。但是热点事件和话题在其出现之前是未知的,所以问题就变为对一些特定的,敏感的话题的固定检测。比如有日本学者训练了一个分类器来判断用户发布的内容是不是属于和地震相关的报道。分类器针对特定的话题筛选可以有良好的效果,但是微博上文本内容分布范围广,话题千变万化,在发生之前无法认为预知,这使得设计一个完备的词典式分类器来对所有的信息进行分类变得几乎不可能,一般的分类器难以胜任这样的任务。
在现有技术中,有利用微博情感波动和相邻时段词集的差异性来识别热点话题,并取得较好效果,但其没有考虑微博多噪声特点以及热点话题引起的突发关键字。
在现有技术中,有从社会学的角度出发,考虑了微博的基本信息来进行热点话题检测。比如有工作再计算词的权重的时候考虑了用户权重、粉丝数、回复数、转发数。首先使用一个成熟的理论来对词生命周期进行建模,然后考虑了用户权重,通过pagerank来计算词的权重,最后使用无监督的学习算法发现爆炸性话题。
因为短文本没有足够的单词出现信息,传统的聚类方法,比如词袋方法,受到了限制。为了解决这个问题,有工作把一个用户的推文当做一个文档。但是这样处理忽略了一个重要的事实:一条推文经常是和一个话题相关的。也有工作从用户的简介和文本中抽取出领域特征。其考虑了用户在推特上意图的分类标签和特征集合,比如平时的聊天,交流,分享,转发的信息。把tweets分成指定的的新闻、事件、观点、交易、私人信息类别。还有利用维基百科和WordNet整合短文本信息,用于短文本聚类。实验表明这种丰富文本特征的方法能很大地提高聚类精度,所以本发明中使用了类似的技术来丰富微博文本特征。
在现有技术中,有从建模角度出发,比如通过改进LDA的以适用于微博的Author-topic、Twitter-LDA模型等,可以有效用于微博话题建模,但是该类算法复杂度普通偏高,不利于从大规模微博数据集合中检测热点话题。
然而,现有的大部分中文微博热点话题检测方法没有充分考虑以下三个问题:1)微博客中存在大量的噪声信息;2)微博短文本造成信息缺失;3)海量微博数据带来的性能挑战。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410034402.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于路线比较的方法及设备
- 下一篇:加热装置和加热装置中使用的气体分布器





