[发明专利]基于微博的突发事件分析方法无效
申请号: | 201310284163.2 | 申请日: | 2013-07-08 |
公开(公告)号: | CN104281608A | 公开(公告)日: | 2015-01-14 |
发明(设计)人: | 肖江;王光平;李文骏 | 申请(专利权)人: | 上海锐英软件技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 201207 上海市浦东新区张江高科技*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 突发事件 分析 方法 | ||
技术领域
本发明涉及一种分析方法,特别是涉及一种基于微博的突发事件分析方法。
背景技术
随着互联网技术的飞速发展,网络微博已一跃成为继新闻、论坛之后的中国互联网的第三大舆情源。由于微博每日有千亿级数据量以及难以想象的信息分享速度,使得各类机构、企业不得不重视微博中涉及到自身的数据。相关学者、广告商以及政治活动家很早就已经将大规模的在线社交网络,如微博平台,视作一个具备了解思想传播、社会联系等功能的真实网络,尤其在微博平台中言论自由、传播速度快的情况下,突发事件更加可能伴随着谣言和负面言论进行广泛快速的传播,形成严重的舆论危机。然而目前,通过人工的方法去收集所有的相关数据几乎是不可能完成的,更谈不上对这些海量数据进行分析、整理。所以,通过计算机的手段运用适当的方法,及时把握微博上的突发事件及其信息传播规律,具有重要的社会意义。
目前基于微博的突发事件分析的研究很少,但是对于热点话题有一些相关研究,由于热点话题可以作为突发事件的一部分,故可以对热点话题分析方法的研究可做为本发明的技术背景。无论是热点话题还是突发话题的发现其实都是将话题或事件的主题词作为一个重要的线索,而对于词的突发性判定,经典的方法就是Kleinberg.J提出的一种鉴别电子邮件或新闻文本流中词的爆发的文本挖掘算法,主要思想是根据文本流中信息的初始时间序列利用自动机的状态序列来模拟文本流,其中的每个状态都是根据随着状态序号变大而增强的时间分布函数来发出信息,当文本流处于序号最大的状态时即作为一个突发。而He.Q则是根据词特征形成的时间序列的频谱特征来进行特征词分类,将具有高主周期和高主功率谱的词作为突发词,从而可进一步通过突发词的特征时间序列找出词的突发时间,同时再根据突发词在文档中的出现将它们组成重要的非周期事件。Fung,G.P.C.定义突发事件是在文本流的某个时间窗中大量同时出现的突发词的最小集合,其方法也是通过词特征时间序列的特征分布来定义突发词,而后得出描述突发事件的最小突发词的集合,并找到突发事件的热门时间。
上述的方法并非是针对微博信息的,同时进行突发事件检索时,都是从突发时间的来进行主题的词的判断,然而在微博监控中突发事件往往还包含热点事件,仅仅从时间上来判断突发事件具有一定的局限性,效果也不理想。
发明内容
本发明所要解决的技术问题是提供一种基于微博的突发事件分析方法,其可以在直接应用到微博预警系统中,将突发事件的关注程度量化为事件在微博用户发表言论中出现的比例,并及时作出预警,达到舆情监控管理的目的。
本发明是通过下述技术方案来解决上述技术问题的:一种基于微博的突发事件分析方法,其特征在于,所述基于微博的突发事件分析方法包括以下步骤:
步骤一,分析突发词,突发词的分析与之前技术方法不同之处主要在于,采用时域和频域两个特征判断词特征轨迹的非周期突发性;
步骤二,将突发词在微博项中同时出现的情况将不同的主题词聚类,一类突发词则对应一个突发事件,为了更好的描述突发事件,可以读取最早发布的事件相关微博的正文部分来作为突发事件的描述;
步骤三,以网页的形式展现突发事件的分析结果。
优选地,所述步骤一中的突发词特征轨迹要确定判断词在一段时间的突发性,首先要记录词的频率在这段时间中的变化状况,即突发词的特征轨迹。
优选地,所述特征轨迹的构建过程中,要考虑特征值的度量选择和时间单元长度的选择。
优选地,所述基于微博的突发事件分析方法应用于微博预警系统中,微博预警系统包括微博采集模块、微博分析模块。
优选地,所述微博采集模块负责对互联网上的新浪、腾讯、twitter这三大微博系统进行实时采集、跟踪、监控,微博采集模块中的一项关键技术是智能信息采集技术,采用智能分布式协同爬虫,可动态配置爬虫服务器数量以及爬虫数量, 在不同的采集需求下动态增减使用在采集上的计算资源。
优选地,所述微博分析模块是将经过微博采集模块得到的信息,经过微博分析模块进行信息去重、传播链分析、趋势分析等获取到有价值的微博情报,实时的分析出舆论热点,把握微博情报的一些动向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海锐英软件技术有限公司,未经上海锐英软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310284163.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力监控方法及系统
- 下一篇:进行网站数据查询的方法及服务器