[发明专利]一种基于地域的话题挖掘及话题走势分析方法及系统在审
申请号: | 201410800232.5 | 申请日: | 2014-12-18 |
公开(公告)号: | CN104516961A | 公开(公告)日: | 2015-04-15 |
发明(设计)人: | 姬东鸿;程飞;白旭 | 申请(专利权)人: | 北京牡丹电子集团有限责任公司数字电视技术中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地域 话题 挖掘 走势 分析 方法 系统 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于地域的话题挖掘及话题走势分析方法及系统。
背景技术
随着大数据时代的来临,如何从互联网快速获取热门的信息是衡量网络时代进步的一个重要标志。掌握热门信息意味着占据主动,及时挖掘和分析热门信息不仅节约大量阅读总结的时间,在为正确及时的决策奠定了基础。这无论对于普通网民,还是国家安全、政府运作及商业活动都有着十分重要的意义。
首先,网民上网的时间并不是无限的,有时并没有时间浏览大量的网页来获取热门信息,特别是基于某个地区的热门信息,这时候一个好的能够快速让网民知道了解最近热门信息及其走势的工具可以节省网民大量的时间。
其次,国家安全是国家的头等大事,而信息安全也是国家安全的一部分。及时掌控和处理热门信息特别涉及到热门敏感信息是维持国家安全、维护社会稳定的一个前提条件。
再次,政府部门作为服务人民的职能部门,必须要及时了解民意,准确体察民情;同时又要时刻掌握有关大量网民特别是某个地域范围内的热门话题的产生背景和发展趋势,力求避免负面话题的发生或尽量减少负面话题的影响。另外,对于商业部门来说,及时掌握产品的市场反馈、了解竞争对手的有关动态是企业保持竞争活力、不断改善产品性能的重要手段,一定程度上决定了企业的成败。
目前,互联网上话题的获取大多是通过相关网站获得的。例如如果要掌握有关云南的话题,就必须去云南相关的主页浏览。但这种方式存在以下几个问题:
第一,很多时候这些主页的话题并没更新,浏览者根本不知道那些话题最新。
第二,浏览者也不知道话题热门情况及其走势。
第三,浏览者不知道话题开始时间及最近发展情况。
传统的浏览话题的方法一般是去门户网站浏览,然而,这些门户网站的信息太过冗余,用户根本无法了解相关事情的热门程度以及其走势,有多少用户关心这个话题。例如:用户需要了解当前热门的某官员腐败话题的讨论情况及其走势,但这些网站根本不能提供给用户这些信息。
为此,我们提出话题挖掘与走势分析的策略。直观上,话题是一种概念结构,话题有许多部分组成,它不仅仅只是几段文字就能形容的,它还包括文字之外的许多部分,例如话题开始时间、话题热门情况,话题走势等。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于地域的话题挖掘及话题走势分析方法及系统。
本发明解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及话题走势分析方法,话题挖掘包括如下步骤:
步骤A1,获取网络文章并存入数据库;
步骤A2,按照地域对预定时间段内的网络文章进行分类;
步骤A3,抽取每个类的类关键词;
步骤A4,针对每个类过滤掉不符合阈值要求的类关键词;
步骤A5,对每个类过滤后剩余的类关键词进行聚类;
步骤A6,判断每个类相关网络文章数量是否达到预设阈值,如果是则由聚类的类关键词构成一个话题,否则不形成话题。
本发明的有益效果是:本发明采用基于话题挖掘及走势分析机制,能够自动挖掘出用户关注的热门话题,过滤掉大量无关的信息,并能够分析这些话题的走势,让用户从多个维度了解一个事件的产生发展及消亡情况。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤A1中利用自适应网络爬虫获取网络文章,存入数据库便于后续数据分析。
进一步,所述话题的构成包括地域、话题关键词、开始时间、相关帖子数、相关趋势和消亡与否。
采用上述进一步方案的有益效果:使得话题比单篇文章更有灵性,也更能生动形象地描述某个地域某个时间段所发生的事情,对某个地域某个时间段的事件分析和掌控有许多帮助。
进一步,话题走势分析包括如下步骤:
步骤B1,对待分析话题的帖子按时间排序;
步骤B2,分析话题从开始产生到当前时刻的帖子走势,生成话题走势图;
步骤B3,通过话题走势图用训练后的话题消亡模块判断该话题是否消亡;未消亡的话题不断更新帖子并继续判断是否消亡,已消亡的话题则不再更新。
本发明解决上述技术问题的技术方案如下:一种基于地域的话题挖掘及话题走势分析系统,包括文章获取模块、文章分类模块、类关键词抽取模块、类关键词过滤模块、类关键词聚类模块和话题形成模块;
所述文章获取模块,其用于获取网络文章并存入数据库;
所述文章分类模块,其用于按照地域对预定时间段内的文章进行分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京牡丹电子集团有限责任公司数字电视技术中心;,未经北京牡丹电子集团有限责任公司数字电视技术中心;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410800232.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力系统海量数据管理系统及其使用方法
- 下一篇:数据查询管理方法和系统