[发明专利]热点关键词的选取方法、设备和存储介质在审
申请号: | 202010561415.1 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111737555A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 龚朝辉 | 申请(专利权)人: | 苏州朗动网络科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33;G06F40/289 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 董燕 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 关键词 选取 方法 设备 存储 介质 | ||
本发明揭示了一种热点关键词的选取方法、设备和存储介质,所述方法包括:获取一关键词在多个预定周期内的变化速度的均值μ0和标准差S,所述关键词的变化速度是指相邻两个预定周期内所述关键词的标准化词频的差值;获取所述关键词在最近的预定周期内的变化速度μ;根据所述μ0、S和μ,计算所述关键词的变化速度的Z检验的Z值:根据所述Z值,判断所述关键词是否是热点关键词。与现有技术相比,本发明热点关键词的选取方法,根据相邻时间段内关键词的变化速度服从正太分布的现象,利用Z检验,计算关键词的变化速度的Z值,从而不同关键词的变化速度可以进行比较,根据Z值的大小,科学、快速、准确的选取热点关键词。
技术领域
本发明涉及互联网技术领域,特别是涉及一种热点关键词的选取方法、设备和存储介质。
背景技术
随着网络日益成为人们发布信息、沟通信息的主要媒体,网络上的信息也越来越能反映人们关注的焦点和社会热点事件。因此,通过监控网络信息中所反映的热点问题和热点事件就成为一个自然的需求。
在一般情况下,互联网信息中某个关键词大量集中出现往往意味着某个热点新闻或者热点事件的发生。因此,互联网文本中热点关键词的数量的较大变化常常反映了社会热点新闻或事件的出现,也就是说,可以通过关键词的词频的变化速度来判断是否出现热点新闻或事件。
但是,不同的关键词有不同的词频,不同关键词的词频的相同的变化程度预示着不同的结果。对于一个使用频率很高的关键词来说,如果词频增加几倍就意味着发生了相应的热点新闻或事件(比如原先词频500次/天的词频,增加到1200次/天)。而对一个使用频率比较低的关键词,如果词频只是增加几倍也是正常的变化(比如从15次/天增加到50次/天),并不能预示热点新闻或事件的发生。或者,对于一个高频率的关键词来说,词频增加几百次/天并不意味着什么,但是对于一个低频率的关键词来说,词频增加几百次/天就预示热点新闻或事件的发生。
因此,如何根据关键词词频的变化速度,科学、准确的选取热点关键词,是我们需要解决的问题。
发明内容
本发明的目的在于提供一种热点关键词的选取方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种热点关键词的选取方法,所述方法包括:
获取一关键词在多个预定周期内的变化速度的均值μ0和标准差S,所述关键词的变化速度是指相邻两个预定周期内所述关键词的标准化词频的差值;
获取所述关键词在最近的预定周期内的变化速度μ;
根据所述μ0、S和μ,计算所述关键词的变化速度的Z检验的Z值:
根据所述Z值,判断所述关键词是否是热点关键词。
作为本发明一实施方式的进一步改进,所述“获取某个关键词在预定周期内的变化速度的均值μ0和标准差S”具体包括:
获取所述关键词在多个预定周期内的多个变化速度,得到所述关键词的变化速度集合;
根据所述变化速度集合,求所述关键词的变化速度的均值μ0,并根据所述均值μ0,求所述关键词的变化速度的标准差S。
作为本发明一实施方式的进一步改进,所述方法还包括:
将所述关键词在最近的预定周期内的变化速度μ加入所述变化速度集合,重新计算所述关键词的变化速度的均值μ0和标准差S。
作为本发明一实施方式的进一步改进,所述“根据所述Z值,判断所述关键词是否是热点关键词”具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州朗动网络科技有限公司,未经苏州朗动网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010561415.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可信芯片固件的融合系统、方法、装置及设备
- 下一篇:一种自动去污的胸腔镜