[发明专利]词组处理方法、装置、存储介质及电子设备在审
申请号: | 201910423481.X | 申请日: | 2019-05-21 |
公开(公告)号: | CN111985225A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 刘尧;熊维 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/9536 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词组 处理 方法 装置 存储 介质 电子设备 | ||
本发明实施例提供一种词组处理方法、装置、存储介质及电子设备,该方法包括:从搜索记录中获取对象以及所述对象对应的搜索词;对所述搜索词进行处理,以获取所述对象的初选目标词;计算所述初选目标词的过滤指标;基于所述过滤指标对所述初选目标词进行过滤,以获取所述对象的目标词。相比于相关技术中的人工提取和标注,本发明实施例基于搜索记录提取对象的目标词,实现了基于用户搜索行为自动提取对象的目标词,不仅提升目标词的提取效率,而且实现了基于用户行为提取目标词。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种词组处理方法、装置、存储介质及电子设备。
背景技术
随着互联网的普及,人们通常在网上搜索一些需要了解的对象。例如,用户在搜索引擎中输入一段词组,搜索引擎将相关的搜索结果进行展示。
相关方案中,经常是由人工对对象进行提取和标注。例如,人工将产品划分多个种类层级,如一级种类、二级种类、三级种类,但是这种种类层级下仍包含有大量的产品,导致产品无法精细化管理,为此,人们提出了“产品词”的概念,表示一级种类、二级种类和三级种类后又一个种类层级,可以理解为“四级种类”。
但是,相关技术中的采用的人工提取和标注的方法,至少存在以下问题:需要大量人力工作,但是仍效率低下,而且无法做到对全部对象进行提取和标注。
因此,需要一种新的词组处理方法、装置、存储介质及电子设备,以实现对象的目标词的自动提取。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种词组处理方法、装置、存储介质及电子设备,能够自动提取对象的目标词。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供一种词组处理方法,其中,所述方法包括:从搜索记录中获取对象以及所述对象对应的搜索词;对所述搜索词进行处理,以获取所述对象的初选目标词;
计算所述初选目标词的过滤指标;基于所述过滤指标对所述初选目标词进行过滤,以获取所述对象的目标词。
在本发明的一些示例性实施例中,基于前述方案,对所述搜索词进行处理,以获取所述对象的初选目标词,包括:对所述搜索词进行分词,以获取所述对象的初选目标词;和/或基于属性词库对所述搜索词进行匹配,以获取所述对象的初选目标词。
在本发明的一些示例性实施例中,基于前述方案,对所述搜索词进行分词,以获取所述对象的初选目标词,包括:对所述搜索词进行分词,以获取到对应的词组;从所述词组中提取出与所述对象相邻的词组;基于所述词组生成初选目标词。
在本发明的一些示例性实施例中,基于前述方案,基于属性词库对所述搜索词进行匹配,以获取所述对象的初选目标词,包括:基于属性词库对所述搜索词进行匹配,获取到所述搜索词中的属性词;基于每个属性词生成所述对象的初选目标词。
在本发明的一些示例性实施例中,基于前述方案,所述计算所述初选目标词的过滤指标,包括:基于所述初选目标词的出现频率数据与所述对象的出现频率数据计算出所述初选目标词的过滤指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910423481.X/2.html,转载请声明来源钻瓜专利网。