[发明专利]搜索纠错方法及装置有效
| 申请号: | 201910465164.4 | 申请日: | 2019-05-30 |
| 公开(公告)号: | CN110188274B | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 邓哲宇 | 申请(专利权)人: | 口口相传(北京)网络技术有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9537;G06F40/289 |
| 代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;张颖瑛 |
| 地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 纠错 方法 装置 | ||
1.一种搜索纠错方法,包括:
从预先获取的样本数据中提取出搜索关键字特征,以及提取出与所述搜索关键字特征对应的地理位置特征;
将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据;
利用所述特征数据对构建的预设初始模型进行训练,以获得搜索纠错模型;
接收输入的待纠错搜索信息,利用所述搜索纠错模型确定所述待纠错搜索信息的纠错结果;
其中,所述利用所述特征数据对构建的预设初始模型进行训练进一步包括:
针对于每个地理位置特征,确定与该地理位置特征相对应的特征数据的数量;基于每个地理位置特征对应的特征数据的数量,对所述特征数据进行分组;依次利用每个分组中的特征数据,分批次地对构建的预设初始模型进行训练;所述每个分组中的特征数据对应于不同的地理位置特征;并且,每个分组中各个地理位置特征对应的特征数据的数量符合预设分布比例。
2.根据权利要求1所述的方法,其中,所述从预先获取的样本数据中提取出搜索关键字特征进一步包括:从预先获取的样本数据中提取出搜索关键字的字特征。
3.根据权利要求2所述的方法,其中,所述从预先获取的样本数据中提取出搜索关键字特征进一步包括:从预先获取的样本数据中提取出搜索关键字的上下文特征。
4.根据权利要求3所述的方法,其中,所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:
采用预设二元模型,从预先获取的样本数据中提取出搜索关键字的上下文特征。
5.根据权利要求3所述的方法,其中,若所述搜索关键字不存在上文数据;则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征;
若所述搜索关键字不存在下文数据;则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:将第二预设标识作为所述搜索关键字的下文特征。
6.根据权利要求1-5中任一项所述的方法,其中,所述将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据进一步包括:
将所述搜索关键字特征对应的特征向量,和所述与该搜索关键字特征对应的地理位置特征对应的特征向量进行合并,以生成所述特征数据。
7.根据权利要求1-5中任一项所述的方法,其中,在所述从预先获取的样本数据中提取出搜索关键字特征之前,所述方法还包括:
获取在预设时间段内的搜索记录信息,基于所述搜索记录信息,获取所述样本数据。
8.根据权利要求7所述的方法,其中,所述基于所述搜索记录信息,获取所述样本数据进一步包括:
基于所述搜索记录信息,确定与所述搜索记录信息对应的高频搜索词;
对所述高频搜索词对应的搜索记录信息进行降采样,以获得所述样本数据。
9.根据权利要求8所述的方法,其中,所述方法还包括:为所述高频搜索词配置对应的权重值。
10.根据权利要求8或9所述的方法,其中,所述基于所述搜索记录信息,获取样本数据进一步包括:
基于所述搜索记录信息,构造错误-正确搜索纠错对;
根据构造的错误-正确搜索纠错对,生成样本数据。
11.根据权利要求1所述的方法,其中,所述预设初始模型基于seq2seq模型构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于口口相传(北京)网络技术有限公司,未经口口相传(北京)网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910465164.4/1.html,转载请声明来源钻瓜专利网。





