[发明专利]一种热词分析方法、计算机可读存储介质及终端设备有效
申请号: | 201810456973.4 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108710664B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 张依;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/951;G06F16/335;G06F40/289;G06F40/216 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 方法 计算机 可读 存储 介质 终端设备 | ||
本发明属于计算机技术领域,尤其涉及一种热词分析方法、计算机可读存储介质及终端设备。所述方法通过搜索引擎爬取当前统计周期内在目标网站上发布的网页;对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词;统计各个分词在所述文本信息中的曝光频次;将在所述文本信息中的曝光频次大于预设的第一曝光阈值的分词确定为热词;统计各个企业名称在优选文本信息中的曝光频次;根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度。本发明为热词的确定提供了一套客观的评估标准,而且在得到热词之后,综合考虑了企业与热词之间的关系,分析结果对于企业具有更强的指导意义。
技术领域
本发明属于计算机技术领域,尤其涉及一种热词分析方法、计算机可读存储介质及终端设备。
背景技术
热词,即网络热门词汇,是指一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物。热词具有时代特征,可以作为一个时期的热点话题及民生问题的代表。
目前对于热词的确定,主要是由网络分析人员根据自己在互联网上所浏览到信息进行处理所得到的,这种方式依赖于网络分析人员个人的判断,主观性极强,难以客观地反应真实的热词情况,而且在得到热词之后,往往仅仅是只针对热词进行片面的分析,分析维度单一,分析结果对于企业的指导意义极差。
发明内容
有鉴于此,本发明实施例提供了一种热词分析方法、计算机可读存储介质及终端设备,以解决现有技术中热词的确定过程主观性极强且分析结果对于企业的指导意义极差的问题。
本发明实施例的第一方面提供了一种热词分析方法,可以包括:
通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;
对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词;
统计各个分词在所述文本信息中的曝光频次;
将在所述文本信息中的曝光频次大于预设的第一曝光阈值的分词确定为热词;
统计各个企业名称在优选文本信息中的曝光频次,所述优选文本信息为包含所述热词的文本信息;
根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;
对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分词;
统计各个分词在所述文本信息中的曝光频次;
将在所述文本信息中的曝光频次大于预设的第一曝光阈值的分词确定为热词;
统计各个企业名称在优选文本信息中的曝光频次,所述优选文本信息为包含所述热词的文本信息;
根据各个企业名称在所述优选文本信息中的曝光频次计算各个企业名称与所述热词之间的关联度。
本发明实施例的第三方面提供了一种热词分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过搜索引擎爬取当前统计周期内在目标网站上发布的网页,所述目标网站为浏览量大于预设的浏览量阈值的网站;
对所述网页中的文本信息进行切词处理,得到构成所述文本信息的各个分 词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810456973.4/2.html,转载请声明来源钻瓜专利网。