[发明专利]一种建立索引的方法和装置有效

专利信息
申请号: 201710946410.9 申请日: 2017-10-12
公开(公告)号: CN110019646B 公开(公告)日: 2021-10-15
发明(设计)人: 焦晨晨 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 张一军;陆锦华
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 建立 索引 方法 装置
【说明书】:

发明公开了一种建立索引的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将输入的文本序列分为多个词,根据所述多个词和所述多个词的子串得到多个词与所述词对应语义项的映射关系;根据所述多个词与所述词对应语义项的映射关系建立第一索引;根据用户的历史搜索数据确定候选词与所述候选词对应语义项的映射关系,并判断所述候选词与所述候选词对应语义项的映射关系是否正确;根据所述判断的结果修正所述第一索引,以得到第二索引。该实施方式能够在商品索引召回阶段,既能够保证召回率以尽可能多地召回与用户搜索词相关的商品,又能提高准确率以尽可能地过滤掉不相关的商品。

技术领域

本发明涉及计算机技术领域,尤其涉及一种建立索引的方法和装置。

背景技术

随着网络技术和物流技术的发展,近年来电商迅速崛起,电商平台的商品数量及种类数量正在成指数级的增长,大型平台都有数十亿的商品,如何更加高效和智能地满足用户的搜索需求是非常大的挑战。用户的搜索词多种多样,同一个事物存在口语化、简称、缩写等多种不同名称,而商品名称通常比较规范且偏书面语,两者之间直接进行文本匹配往往会出现问题。

在电商搜索的初期,商品数比较少,索引可以直接按字切分,最大可能的保证能够召回用户所需的商品,随着商品数量及种类数量逐渐丰富,这种不考虑词序的方法会带来很多问题,比如用户搜“红酒”,喝的红酒和酒红色的衣服,同样可以被召回。因此就有了先分词再建索引的方法,这样固定搭配如“火龙果”,建索引的时候就是整个词一个索引链,不必为“火”“龙”“果”都建索引,大大提高了搜索召回的准确率。但是因为分词精度以及用户搜索词和商品名称不能直接匹配,例如商品中“女士连衣裙”被正常分词为“女士|连衣裙”,但是用户常搜“女裙”、“夏裙女”,文本匹配没有办法召回该商品。因此索引端在正常的分词结果中,又增加了更多细粒度的词,比如上例中在索引字段又增加了“女,裙”,方便用户在搜索“女裙”、“夏裙女”等的时候也能召回名称为“女士连衣裙”的商品。这些增加的更细粒度的词被称为“语义项”,语义项是按字索引到按词索引之间的桥梁。

尽管现有的建立索引的方案中为索引端的分词结果中添加了一些细粒度的词(语义项),但在实际的搜索应用中仍存在一些缺陷,例如,用户在搜索乐高时,可能得到了高乐高这样的搜索结果,而用户搜索乐高时召回与高乐高相关的商品显然是不符合用户预期的。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

现有方案存在召回的商品不准确的问题。

发明内容

有鉴于此,本发明实施例提供一种建立索引的方法和装置,能够在商品索引召回阶段,既能够保证召回率以尽可能多地召回与用户搜索词相关的商品,又能提高准确率以尽可能地过滤掉不相关的商品。

为实现上述目的,根据本发明实施例的一个方面,提供了一种建立索引的方法。

一种建立索引的方法,包括:将输入的文本序列分为多个词,根据所述多个词和所述多个词的子串得到多个词与所述词对应语义项的映射关系;根据所述多个词与所述词对应语义项的映射关系建立第一索引;通过历史搜索数据确定候选词与所述候选词对应语义项的映射关系,以根据所述候选词与所述候选词对应语义项的映射关系修正所述第一索引,获得第二索引。

可选地,所述历史搜索数据包括搜索词和对应的用户点击的文本序列,通过历史搜索数据确定候选词与所述候选词对应语义项的映射关系的步骤,包括:对所述搜索词和所述用户点击的文本序列进行分词,以得到搜索词分词和对应的文本序列分词;根据所述搜索词分词和所述对应的文本序列分词中存在包含关系的搜索词分词和文本序列分词确定所述候选词与所述候选词对应语义项的映射关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710946410.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top