[发明专利]互联网热词挖掘方法及装置在审
申请号: | 201310607937.0 | 申请日: | 2013-11-27 |
公开(公告)号: | CN104679738A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 肖诗斌;孙丽华 | 申请(专利权)人: | 北京拓尔思信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 无 | 代理人: | 无 |
地址: | 100088 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 挖掘 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术,尤其涉及一种互联网热词挖掘方法及装置。
背景技术
热词是指在某段时间内使用频率较高的词语,往往具有时代特征,反映一个时期的热点话题及民生问题。互联网热词除了词典已收录词外,还存在一些网络热词,这类词来源于、流传于网络空间,并被广泛应用于日常交流之中,如“何弃疗”、“不明觉厉”、“陈欧体”等,分词系统通常很难识别这类词语,而网络热词却作为一种新的重要传播现象出现在当今互联网中,并且随着时代的变化,发生着演化和变迁。
互联网热词与社会事件或现象联系紧密,成为民意表达与舆论监督的工具,准确、高效抽取互联网热词是当下舆情监管、互联网研究等重要事宜的发展基础。
热词挖掘目前所使用的技术有,基于文档聚类的热词挖掘,这类方法通常容易出现聚类复杂度高,无法满足互联网热词挖掘的实时性需求;另外一种是,根据字串的成词边界、时间分布等特征,采用机器学习模型,进行热词与否的分类学习,这类方法一方面需要知识库支持,另一方面所选取特征基本是字串公有特征,没有对特殊字串做特殊处理,导致噪音词较大,热词发现的准确率不高。
由于各实体串具有独特的成词规律,如人名串由有限的姓氏+高频名字用词组成,且目前有大量实体串知识库,便于机器学习模型学习。为此,本发明将互联网热词分为实体串与非实体串,提出一种互联网热词挖掘方法和装置,以解决互联网热词挖掘效率瓶颈。
发明内容
鉴于此,本发明主要目的是提供一种互联网热词挖掘方法和装置,以提高热词挖掘的准确率和效率。
本发明提供了一种互联网热词挖掘方法,该方法包括。
步骤A 构建词图Words和背景库Corpus,并初始化。
词图Words,存储每一步骤中抽取的词的结果。
背景库Corpus,存放互联网采集来的源数据,同时记录每一个时间单位里各统计指标结果,如标题串频、正文串频、总串频等。
步骤B 实体串识别。
以句子终结符为标准,将互联网原始数据切分为一个个原始字串序列。
对字串序列进行分词原子切分,对原子单元进行两两组合,实现字串序列的二元粗切分,抽取最优的N个粗分结果加入到词图Words中。
构建三级互联的隐马尔科夫模型,自底向上依次为人名识别HMM,地名识别HMM和机构名识别HMM,每一级以隐马尔科夫模型作为基本的算法模型,构建层叠隐马尔科夫模型(Cascaded Hidden Markov Model,简称Cascaded HMM)。
每一层隐马尔科夫模型采用N-Best策略,将产生的最好的N个结果送到词图Words中,供高层模型使用。
低层隐马尔科夫模型通过词语的生成模型为高层隐马尔科夫模型的参数估计提供支持。
第一层人名识别的输入为二元粗切分序列,每一层隐马尔科夫模型都采用改进的Viterbi算法,将最好的N个结果送入词图中,供高一级模型使用。
最高级隐马模型在人名和地名识别的基础之上进行机构名识别。
步骤C 非实体串识别。
采用Nagao算法统计字串中长度为L的子串串频,抽取串频大于一定阈值的子串,进行子串归并。
采用通用度过滤、IWP过滤、互信度过滤及首尾字过滤等策略进行垃圾串过滤,得到候选串,从候选串中过滤掉实体串,即为非实体串。
步骤D 字串统计指标更新。
字串分为候选实体串和非实体串,即为以上步骤抽取的串。
字串统计指标这里指服务于字串热度计算的统计值,如字串在标题、正文中出现的频次,字串出现的频次总和,字串出现的文档数,某时间单位下字串的频次等指标的值。
背景库Corpus中记录源数据更新时间单位下的字串统计指标值,随后时间单位的互联网数据到来时,对背景库Corpus中的语料进行增量更新,同时增量更新记录中的指标。
步骤E 字串热度计算。
字串热度权值分为:基础权值和波动权值,根据背景库中实时更新的统计指标计算字串热度。
其中,基础权值由串出现的位置信息、频率、逆文档频率确定。
波动权值,用字串的时间衰减度来描述。
热词被定义为某一时间段内频繁、大量使用的词,为此采用词条的时间衰减度来表征字串频率随时间的变化,简称衰减度。
更进一步地,基础权值计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术股份有限公司;,未经北京拓尔思信息技术股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310607937.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:Word文件的排版方法和装置