[发明专利]一种基于增量聚类算法的微博话题检测方法及系统在审
申请号: | 201710473108.6 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107291886A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 王萌;王晓荣;梁伟鄯 | 申请(专利权)人: | 广西科技大学;广西科技大学鹿山学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京国坤专利代理事务所(普通合伙)11491 | 代理人: | 郭伟红 |
地址: | 545006 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 算法 话题 检测 方法 系统 | ||
技术领域
本发明属于话题检测技术领域,具体涉及一种基于增量聚类算法的微博话题检测方法及系统。
背景技术
随着互联网技术的发展及其应用的迅猛增长,特别是在web2.0技术兴起之后,微博客(即微博)的应用由于其发布信息及时快捷,传播速度快,传播方式多样越来越多网民的关注和喜爱。微博是一种基于用户关系的信息分享、传播以及获取的平台,可以通过互联网、移动互联网或者一些客户端进行实时的信息分享与传播。微博以最高140字的信息量发布消息,并配以图片、声音、视频的文件为用户提供丰富、多元化的信息分享与传播。目前,微博已成为网民们表达自身各类情感的重要平台,特别是目前国家对网络谣言打击力度不断提高的今天,如何有效对微博进行管理已经成为信息安全领域的一个重要研究课题,其中重要的一点就是如何对网络上微博话题的发现和甄别已经成为热点研究问题。
在自然语言理解领域话题检测与跟踪(topic detection and tracking,TDT)已经有多年的研究历史,其目标就是检测相关信息并跟踪事件的发展变化,它的主要研究内容包括两部分,第一部分是话题检测,话题检测是在多个文档集合中将相同话题聚类;另一部分是话题跟踪,该部分主要是根据时间的顺序退某一个相同话题下的相关事件做追踪。由于微博的快速发展,目前有些研究人员已经将TDT的研究由传统的文本载体引入到微博载体中,通过对微博的话题检测与跟踪达到及时发现微博热点话题和微博热点话题的实时进展等问题。微博与传统文本相比,具有文本短、用户群体层次差异大、用词不规范、行文格式不严谨、文字口语化强等诸多特点,由于这些特点的存在给微博话题检测带来很大困难。由于上述原因,虽然话题检测研究已进行多年,但由于数据采集的多样性与特征抽取的不确定性,目前话题检测主要集中在新闻报道等相关领域研究上,有关微博话题检测的研究相对较少。
随着微博的快速普及,以及在互联网生活中扮演了越来越重要的角色,目前国内外一些学者也开始对微博数据进行相关研究,特别是在微博热点话题检测方面。Rui Long等人提出了一种面向微博数据的有效事件检测追踪的方法,他们通过对微博数据特征的聚类分析确定主题词来进行微博数据中的事件检测和追踪;Ramage等人采取标注的潜在语言模型模型,将微博文本映射到四个潜在维,并分析结果实现微博排序,利用微博排序来获取热点话题;马彬等人利用线索树来标记微博数据特征,并采用双侧聚类方法对微博数据聚类,利用聚类结果获取微博话题;郑斐然等人利用在线检测微博消息中大量出现的关键字,通过对关键字的聚类来获取微博热点话题;薛素芝等人通过寻找微博内在规律,利用相同时间窗口内不同主题词的增长率来发掘当时的热点主题词语,并对热点主题词的聚类来产生热点话题。
传统的话题检测模型,在微博话题讨论这种噪音环境下处理效果并不理想,其主要原因主要是微博内容有不超过140个字的文本组成,所包含的内容大大少于传统的文本,同时微博中还包含一些特殊的格式,例如“#主题#”、“@用户”等等。另外,微博作为网络社交工具里面含有大量的网络词汇,这些往往在传统文本中没有出现过,例如“童鞋”、“老鸟”、“妹纸”等等。微博文本与传统文本在结构上也有很大区别,微博文本较短,因此,使用向量空间模型(Vector Space Model,VSM)建模时务必会出现特征向量稀疏等问题。因此,在进行微博热点话题检测时无论是在微博文本预处理方法上,还是在微博特征提取和热点话题聚类的方法上都与传统的话题检测模型有着重大区别。
关于微博话题检测的相关文献,我们查到如下:
1、申请号:201110164560.7,发明名称:微博话题检测方法及系统,该方法包括步骤:S1,将微博文本切分为词汇;S2,构造微博文本线索和微博文本森林;S3,针对特定的微博文本线索,进行微博话题分析,以找出微博文本线索中的主话题和噪音话题;S4,针对每个微博文本线索,合并其主话题中的微博文本,从而为每个微博文本线索生成一个微博线索文本;S5,进行全局微博话题分析,从而检测到全局微博话题,形成微博话题库。该发明的不足之处在于:该发明需要先构造微博文本线索,形成微博文本森林,需进行大量的微博话题分析,形成微博话题库,这样的发明在特定领域内的效果会非常明显,但在微博爆炸式的移动互联网中的处理速度相对会较慢,对及时热点话题的发现效果未必明显。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西科技大学;广西科技大学鹿山学院,未经广西科技大学;广西科技大学鹿山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710473108.6/2.html,转载请声明来源钻瓜专利网。