[发明专利]搜索纠错方法及装置有效
| 申请号: | 201910465164.4 | 申请日: | 2019-05-30 |
| 公开(公告)号: | CN110188274B | 公开(公告)日: | 2021-06-08 |
| 发明(设计)人: | 邓哲宇 | 申请(专利权)人: | 口口相传(北京)网络技术有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9537;G06F40/289 |
| 代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;张颖瑛 |
| 地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 纠错 方法 装置 | ||
本发明公开了一种搜索纠错方法及装置。其中,方法包括:从预先获取的样本数据中提取出搜索关键字特征,以及提取出与搜索关键字特征对应的地理位置特征;将搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据;利用特征数据对构建的预设初始模型进行训练,以获得搜索纠错模型;接收输入的待纠错搜索信息,利用搜索纠错模型确定待纠错搜索信息的纠错结果。本方案通过将搜索关键字特征及对应的地理位置特征合并,并利用该合并后的特征数据来进行纠错模型的训练,从而使得训练获得的搜索纠错模型能够基于不同的地理位置,为用户提供差异化的纠错结果,使得纠错结果更能符合用户的实际搜索需求,提高了搜索纠错的准确度。
技术领域
本发明涉及互联网技术领域,具体涉及一种搜索纠错方法及装置。
背景技术
随着科技及社会的飞速发展,许多服务平台为提升用户体验,通常为用户提供有搜索功能。用户通过输入相应的搜索词,即可在服务平台中快速地获取搜索结果。
在许多情况下,用户输入的搜索词会存在相应的输入错误(如同音词错写)等等。因此,为保障搜索结果能够符合用户需求,一些服务平台在用户输入搜索词后,会采用相应的方法来对该搜索词进行纠错。
如申请公布号为CN108376129A的中国发明专利申请,通过利用已知纠错词典中的纠错对训练纠错模型,从而实现对搜索词的纠错。但是,上述搜索纠错方法是利用已知纠错词典中的信息来进行纠错模型的训练,该种训练方式获得的纠错模型针对于不同用户输入的搜索词的纠错结果并无差别,从而使得纠错结果无法满足用户的真实需求,降低搜索纠错准确率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的搜索纠错方法及装置。
根据本发明的一个方面,提供了搜索纠错方法,包括:
从预先获取的样本数据中提取出搜索关键字特征,以及提取出与所述搜索关键字特征对应的地理位置特征;
将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据;
利用所述特征数据对构建的预设初始模型进行训练,以获得搜索纠错模型;
接收输入的待纠错搜索信息,利用所述搜索纠错模型确定所述待纠错搜索信息的纠错结果。
可选的,所述从预先获取的样本数据中提取出搜索关键字特征进一步包括:从预先获取的样本数据中提取出搜索关键字的字特征。
可选的,所述从预先获取的样本数据中提取出搜索关键字特征进一步包括:从预先获取的样本数据中提取出搜索关键字的上下文特征。
可选的,所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:
采用预设二元模型,从预先获取的样本数据中提取出搜索关键字的上下文特征。
可选的,若所述搜索关键字不存在上文数据;则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:将第一预设标识与所述搜索关键字的组合作为所述搜索关键字的上文特征;
若所述搜索关键字不存在下文数据;则所述从预先获取的样本数据中提取出搜索关键字的上下文特征进一步包括:将第二预设标识作为所述搜索关键字的下文特征。
可选的,所述将所述搜索关键字特征及与该搜索关键字特征对应的地理位置特征合并形成特征数据进一步包括:
将所述搜索关键字特征对应的特征向量,和所述与该搜索关键字特征对应的地理位置特征对应的特征向量进行合并,以生成所述特征数据。
可选的,所述利用所述特征数据对构建的预设初始模型进行训练进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于口口相传(北京)网络技术有限公司,未经口口相传(北京)网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910465164.4/2.html,转载请声明来源钻瓜专利网。





