[发明专利]词库构建方法、识别搜索需求的方法及相关装置有效
申请号: | 201710137968.2 | 申请日: | 2017-03-09 |
公开(公告)号: | CN107122392B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 张潇;高原;苟秋媛;梁东;吴霄 | 申请(专利权)人: | 北京星选科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/335;G06F16/33 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词库 构建 方法 识别 搜索 需求 相关 装置 | ||
1.一种词库构建方法,其特征在于,所述方法包括:
基于基础数据确定基础词向量集合;
根据类标签的初始关键词和阈值以及所述基础词向量集合,确定每一个所述类标签对应的基础词向量;
基于每一个所述类标签及其对应的基础词向量构建词库;
其中,所述基于基础数据确定基础词向量集合,包括:
针对用户搜索轨迹进行关键词修复、轨迹过滤和轨迹扩充,得到第一基础数据;
针对商户分组数据进行分组过滤,得到第二基础数据;
将所述第一基础数据和第二基础数据输入连续词袋模型,计算得到所述基础词向量集合。
2.如权利要求1所述的方法,其特征在于,所述根据预设的类标签的初始关键词和阈值以及所述基础词向量集合,所述确定每一个所述类标签对应的基础词向量,包括:
针对每一个所述类标签,重复地计算满足预设条件的基础词向量并将该基础词向量加入关键词集,直至确定出所有满足所述预设条件的基础词向量;其中,
所述关键词集与所述类标签一一对应,且所述关键词集初始包括所对应的类标签的初始关键词;
所述预设条件为:与所述关键词集中至少一个关键词的相似度超过所对应的类标签的阈值且未加入所述关键词集;
所述类标签所对应的关键词集中的关键词所属的基础词向量,即所述类标签对应的基础词向量。
3.如权利要求1所述的方法,其特征在于,所述词库包括:
类标签字段、关键词字段和向量字段。
4.一种词库构建装置,其特征在于,所述装置包括:
集合确定模块,用于基于基础数据确定基础词向量集合;
词向量处理模块,用于根据类标签的初始关键词和阈值以及所述基础词向量集合,确定每一个所述类标签对应的基础词向量;
词库构建模块,用于基于每一个所述类标签及其对应的基础词向量构建词库;
其中,所述集合确定模块包括:
第一数据子模块,用于针对用户搜索轨迹进行关键词修复、轨迹过滤和轨迹扩充,得到第一基础数据;
第二数据子模块,用于针对商户分组数据进行分组过滤,得到第二基础数据;
计算子模块,用于将所述第一基础数据和第二基础数据输入连续词袋模型,计算得到所述基础词向量集合。
5.如权利要求4所述的装置,其特征在于,所述词向量处理模块用于:
针对每一个所述类标签,重复地计算满足预设条件的基础词向量并将该基础词向量加入关键词集,直至确定出所有满足所述预设条件的基础词向量;其中,
所述关键词集与所述类标签一一对应,且所述关键词集初始包括对应类标签的初始关键词;
所述预设条件为:与所述关键词集中至少一个关键词的相似度超过对应的类标签的阈值且未加入所述关键词集;
所述类标签所对应的关键词集中的关键词所属的基础词向量,即所述类标签对应的基础词向量。
6.如权利要求4所述的装置,其特征在于,所述词库包括:
类标签字段、关键词字段和向量字段。
7.一种识别搜索需求的方法,其特征在于,所述方法包括:
对搜索项进行分词,得到关键词;
根据所述关键词从基于如权利要求1-3中任一项所述的方法构建的词库中获取所述关键词的向量;
基于所述关键词的向量确定表示搜索需求的类标签。
8.如权利要求7所述的方法,其特征在于,
所述关键词的数量为多个;
所述基于所述关键词的向量确定表示搜索需求的类标签,包括:
按照各个所述关键词在所述搜索项中的位置顺序,依次将各个所述关键词的向量输入状态转移模型,
识别所述状态转移模型最后一次输入所述关键词的状态,得到表示第一搜索需求的第一类标签和表示第二搜索需求的第二类标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京星选科技有限公司,未经北京星选科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710137968.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于历史记录的代码审核人推荐方法
- 下一篇:电子相册生成方法以及装置