[发明专利]一种热词确定方法、装置、电子设备及存储介质在审
申请号: | 202110546327.9 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113420544A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 林元晟;戴恒宇;周学涵 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06F16/35;G06Q30/06 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 刘欢欢;张颖玲 |
地址: | 100176 北京市大兴区经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 方法 装置 电子设备 存储 介质 | ||
本发明实施例适用于数据处理技术领域,提供了一种热词确定方法、装置、电子设备及存储介质,其中,热词确定方法包括:对待处理文本进行分词处理,得到至少两个分词;对至少两个分词中的每个分词进行词性标注;将标注了词性后的至少两个分词中的分词进行组合,得到至少一个组合词;组合词由所述至少两个分词中在待处理文本中位置相邻的分词组成;确定至少一个组合词中的每个组合词的热度值;热度值表征对应的组合词在待处理文本中出现的频率;基于热度值确定所述待处理文本中的热词;热词表征热度值大于设定值的组合词。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种热词确定方法、装置、电子设备及存储介质。
背景技术
在电商领域,“薅羊毛”等异常行为会造成商家和平台的双重损失,通过从网络上的文本信息中提取出热词,业务人员通过分析热词,可以为优化营销策略、进行风控拦截提供决策依据,及时发现“薅羊毛”等异常行为。相关技术在进行热词提取时,仅根据词性对文本进行简单切分,导致提取出的热词准确度不高。
发明内容
为了解决上述问题,本发明实施例提供了一种热词确定方法、装置、电子设备及存储介质,以至少解决相关技术提取出的热词准确度不高问题。
本发明的技术方案是这样实现的:
第一方面,本发明实施例提供了一种热词确定方法,该方法包括:
对待处理文本进行分词处理,得到至少两个分词;
对所述至少两个分词中的每个分词进行词性标注;
将标注了词性后的所述至少两个分词中的分词进行组合,得到至少一个组合词;所述组合词由所述至少两个分词中在所述待处理文本中位置相邻的分词组成;
确定所述至少一个组合词中的每个组合词的热度值;所述热度值表征对应的组合词在所述待处理文本中出现的频率;
基于所述热度值确定所述待处理文本中的热词;所述热词表征所述热度值大于设定值的组合词。
在一实施例中,所述对标注了词性后的所述至少两个分词中的分词进行组合,得到至少一个组合词,包括:
基于第一设定规则对标注了词性后的所述至少两个分词中的分词进行组合,得到至少一个第一组合词;
基于第二设定规则对所述至少一个第一组合词中的第一组合词和所述至少两个分词中的分词进行组合,得到至少一个第二组合词;所述至少一个第二组合词中的每个第二组合词包括一个第一组合词。
在一实施例中,所述至少一个组合词中的每个组合词中至少包括一个数词。
在一实施例中,所述确定所述至少一个组合词中的每个组合词的热度值,包括:
将所述至少一个组合词中的每个组合词进行聚类,得到至少两个组合词集合;所述至少两个组合词集合中的每个组合词集合对应不同的风险程度;
确定所述至少两个组合词集合中风险程度最大的组合词集合中的组合词的热度值。
在一实施例中,所述将所述至少一个组合词中的每个组合词进行聚类,得到至少两个组合词集合,包括:
将所述至少一个组合词中的每个组合词进行向量化,对应得到至少一个向量;
确定所述至少一个向量中的每个向量分别与至少两个设定的聚类中心的距离值;所述至少两个设定的聚类中心中的每个聚类中心对应一个组合词集合;
基于所述距离值确定所述至少一个组合词中的每个组合词对应的组合词集合。
在一实施例中,所述确定所述至少一个组合词中的每个组合词的热度值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110546327.9/2.html,转载请声明来源钻瓜专利网。