[发明专利]互联网热词挖掘方法及装置在审
申请号: | 201310607937.0 | 申请日: | 2013-11-27 |
公开(公告)号: | CN104679738A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 肖诗斌;孙丽华 | 申请(专利权)人: | 北京拓尔思信息技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 无 | 代理人: | 无 |
地址: | 100088 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 挖掘 方法 装置 | ||
1.一种互联网热词挖掘方法,其特征在于,该方法包括:
步骤A,构建词图Words和背景库Corpus,并初始化;
步骤B,实体串识别;
步骤C,非实体串识别;
步骤D,字串统计指标更新;
步骤E,字串热度计算;
步骤F,热词排序、输出。
2.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,词图用于存储中间抽取的词;背景库用于存储背景语料及单位时间里各统计指标量化值,各统计指标是为字串热度计算服务的一些指标,根据热度计算方法的不同,统计指标有所区别。
3.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,以句子终结符为标准,将互联网原始数据切分为一个个原始字串序列后做下一步处理。
4.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,实体串包括人名、地名、机构名等,实体串识别基于分词基础,构建三级互联的隐马尔科夫模型,自底向上依次为人名HMM、地名HMM、机构名称HMM,每一级以隐马尔科夫模型作为基本的算法模型,构建层叠隐马尔科夫模型。
5.如权利要求1和权利要求4所述的一种互联网热词挖掘方法,其特征在于每一层隐马尔科夫模型采用改进的Viterbi算法,利用N-Best策略,将产生的最好的N个结果送到词图Words中,供高层模型使用。
6.如权利要求4所述的一种互联网热词挖掘方法,其特征在于,低层隐马尔科夫模型通过词语的生成模型为高层模型的参数估计提供支持。
7.如权利要求4所述的一种互联网热词挖掘方法,其特征在于,第一层人名识别模型的输入是分词后的二元粗切分序列,最高级隐马尔科夫模型在人名和地名识别的基础上,做机构名识别。
8.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,采用串频统计算法,如Nagao算法,统计字串中长度为L的子串串频,抽取大于一定阈值的子串,进行子串归并及垃圾子串过滤。
9.如权利要求1和权利要求2所述的一种互联网热词挖掘方法,其特征在于,对背景库中语料进行定点更新,同时更新字串统计指标,这里的字串指实体串和非实体串。
10.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,字串热度权值分为基础权值和波动权值,字串热度权值的计算,依赖于字串统计指标的值,其计算方法为:
字串热度finalweight(s,t) = Convbasew(s) * Wavew(s,t),其中Convbasew(s)为字串基础权值,Wavew(s)为字串的波动权值。
11.如权利要求1和权利要求10所述的一种互联网热词挖掘方法,其特征在于,基础权值由字串出现的位置、频率、逆文档频率确定;波动权值用字串的时间衰减度来描述,即为字串频率随时间的变化情况。
12.如权利要求11所述的一种互联网热词挖掘方法,其特征在于,基础权值的计算方法为:
Basew(s) = titlew(s) * + content(s),其中titlew为字串在标题中出现的权重,contentw为字串在正文中出现的权重,权重的衡量采用tf-idf技术,为作用系数,反应字串在标题和正文中的差异;
为平衡低频、高频字串,对基础权值进行平滑处理,处理方法如下:
Convbasew (s) = log(1+log(1+log(basew(s))))。
13.如权利要求11所述的一种互联网热词挖掘方法,其特征在于,波动权值,其计算方法为:Wavew(s,t)=,t[1,T], t为一个时间单位。
14.如权利要求1所述的一种互联网热词挖掘方法,其特征在于,按照字串热度权值由大到小对字串排序,输出一定时间内,热度大于一定阈值的作为热词,其中包括热点人名、地名、机构名和非实体词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术股份有限公司;,未经北京拓尔思信息技术股份有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310607937.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:Word文件的排版方法和装置