[发明专利]一种动态舆情关键词抽取系统和方法有效
申请号: | 201210586409.7 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103186662A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 赵树合;杨小豹;巩在飞 | 申请(专利权)人: | 中联竞成(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京元中知识产权代理有限责任公司 11223 | 代理人: | 王明霞 |
地址: | 100085 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 舆情 关键词 抽取 系统 方法 | ||
1.一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。
2.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。
3.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的映射模块将文本信息映射到分词空间中,采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇。
4.根据权利要求3所述的一种动态舆情关键词抽取系统,其特征在于:所述的映射模块将分词后的中文词汇进行预处理,去掉高频词汇。
5.根据权利要求4所述的一种动态舆情关键词抽取系统,其特征在于:所述的高频词汇包括“的”一类的无实际意义的副词、介词、连词、助词、叹词等虚词。
6.根据权利要求1所述的一种动态舆情关键词抽取系统,其特征在于:所述的计算模块将对去掉高频词后的中文分词结果进行信息熵计算,所述的信息熵计算即将中文分词结果的单个词语计算器权重系数后表达为向量,抽取其特征向量。
7.根据权利要求6所述的一种动态舆情关键词抽取系统,其特征在于:所述的权重系数中,是根据中文词汇的词性、出现位置、词频、地名、人名、分词特征、专有名词等要素自动给出的,各要素的权重系数是由用户结合样本的特点设定的。
8.根据权利要求7所述的一种动态舆情关键词抽取系统,其特征在于:所述的计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词。
9.根据权利要求8所述的一种动态舆情关键词抽取系统,其特征在于:所述的标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。
10.具有如权利1-9中的任一项所述的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:
(1)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息;
(2)、映射模块将文本信息映射到中文分词空间中进行分词处理成若干中文词汇,并去掉一些介词或虚词等无实际意义词性的高频词;
(3)、计算模块对将去掉高频词后的中文分词结果进行分词计算,即将文本向量化,抽取其特征向量;
(4)、计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词;
(5)、标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中联竞成(北京)科技有限公司,未经中联竞成(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210586409.7/1.html,转载请声明来源钻瓜专利网。