[发明专利]一种动态舆情关键词抽取系统和方法有效
申请号: | 201210586409.7 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103186662A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 赵树合;杨小豹;巩在飞 | 申请(专利权)人: | 中联竞成(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京元中知识产权代理有限责任公司 11223 | 代理人: | 王明霞 |
地址: | 100085 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 舆情 关键词 抽取 系统 方法 | ||
技术领域
本发明涉及网络信息处理技术领域,具体涉及一种动态舆情关键词抽取系统和方法。
背景技术
网络舆情监控是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的一个过程。
网络舆情监控的背景
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
“网络舆情监测系统”是征对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。
“网络舆情”是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
舆情监控系统的一般工作流程如下:
1.信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取、下载及排重。
2.信息处理:对抓取的内容进行自动分类聚类、关键词过滤、主题检测、专题聚焦等。
3.信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务。
一般的舆情监控系统都会有一个对网络信息进行处理的时候都会有一个关键词过滤的过程,以关键词突出并标记本网络信息的类别,或用关键词当做信息的标签。因此,需要有一种关键词抽取的方法,来准确识别网络文本信息或视频信息中的关键词。
发明内容
本发明的目的是提供一种能够快速准确查找网络信息关键词的动态舆情关键词抽取系统和方法。
为达到以上目的,本发明采用的技术方案是:一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。
所述的目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。
所述的映射模块将文本信息映射到分词空间中,采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇。
所述的映射模块将分词后的中文词汇进行预处理,去掉高频词汇。
所述的高频词汇包括“的”一类的无实际意义的副词、介词、连词、助词、叹词等虚词。
所述的计算模块将对去掉高频词后的中文分词结果进行信息熵计算,所述的信息熵计算即将中文分词结果的单个词语计算器权重系数后表达为向量,抽取其特征向量。
所述的权重系数中,是根据中文词汇的词性、出现位置、词频、地名、人名、分词特征、专有名词等要素自动给出的,各要素的权重系数是由用户结合样本的特点设定的。
所述的计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词。
所述的标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。
具有上述的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:
(1)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中联竞成(北京)科技有限公司,未经中联竞成(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210586409.7/2.html,转载请声明来源钻瓜专利网。