[发明专利]一种搜索召回方法、装置及电子设备有效
申请号: | 201810359948.4 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108804511B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 陈伟桐;陈英傑 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 召回 方法 装置 电子设备 | ||
本发明实施例提供了一种搜索召回方法、装置及电子设备,其中,所述方法,包括:对待搜索词条进行分词,得到所述待搜索词条包括的各小词;确定所述各小词的特征信息;分别将所述各小词的特征信息作为预设分类模型的输入,得到所述各小词对应的输出结果,并将大于预设阈值的输出结果对应的小词作为核心小词;召回与所述核心小词对应的搜索结果。利用本发明提供的技术方案可以提高搜索召回率以及搜索召回的准确率。
技术领域
本发明涉及互联网技术领域,特别是涉及一种搜索召回方法、装置及电子设备。
背景技术
随着互联网技术的发展,信息搜索被越来越广泛的应用。搜索召回是指服务器根据用户输入的搜索词条,从数据库中大量的文档或网页中,筛选出与搜索词条相关的信息,发送给客户端。
现有技术在进行搜索召回时,采用的是“高粒度分词+小词”的方法。即服务器将用户输入的搜索词条分为高粒度分词和小词两类词,高粒度分词就是用户输入的搜索词条,小词是将用户输入的搜索词条进行拆分后形成的单个词,例如,当用户输入“清华大学毕业典礼”这一搜索词条时,服务器可以确定高粒度分词为“清华大学毕业典礼”,小词可以包括“清华”、“大学”、“清华大学”、“毕业”、“典礼”,服务器召回包含高粒度分词的信息,再根据预设的每个小词的权重在数据库中进行信息筛选,召回包含较高权重的小词的信息。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:在进行搜索召回时,由于服务器根据的是每个小词的权重来确定是否召回包含该小词的信息,而每个小词的权重是预先设置的固定权重,同一小词在不同文档或网页中均为预先设置的固定权重。但在实际应用中,同一个小词在不同的文档或网页中的权重是不同的。例如,同一小词在文档1中的权重为0.3,而在文档2中的权重为0.8,可见,该小词在文档2中的权重较高,但如果该小词的预设权重为0.3,会使得包含该小词的文档2被召回的概率变得非常低,进而导致本次搜索对文档的召回率较低,并且导致搜索召回的准确率也较低。
发明内容
本发明实施例的目的在于提供一种搜索召回方法、装置及电子设备,以提高进行信息搜索时的搜索召回率,以及搜索召回准确率。具体技术方案如下:
一方面,本发明实施例提供了一种搜索召回方法,包括:
对待搜索词条进行分词,得到所述待搜索词条包括的各小词;
确定所述各小词的特征信息;
分别将所述各小词的特征信息作为预设分类模型的输入,得到所述各小词对应的输出结果,并将大于预设阈值的输出结果对应的小词作为核心小词;所述预设分类模型是根据已知搜索词条对应的各小词的特征信息与各小词所对应的标识训练得到的训练后的模型;
召回与所述核心小词对应的搜索结果。
可选的,针对所述各小词中任一小词,确定所述小词的特征信息,包括以下至少一项:
在数据库中对所述待搜索词条进行搜索,从已排序的搜索结果的前第一预设数量条搜索结果中,统计包含所述小词的搜索结果的条数,将统计出的包含所述小词的搜索结果的条数作为所述小词的特征信息;
在所述数据库中对所述待搜索词条进行搜索,从已排序的搜索结果的前第二预设数量条搜索结果中,统计仅包含所述小词的搜索结果的条数,将统计出的仅包含所述小词的搜索结果的条数作为所述小词的特征信息;
在所述数据库中对所述小词进行搜索,从已排序的搜索结果的前第三预设数量条搜索结果中,统计包含所述待搜索词条的搜索结果的条数,将统计出的包含所述待搜索词条的搜索结果的条数作为所述小词的特征信息;
获取所述小词的长度,将所述小词的长度作为所述小词的特征信息;
分别获取所述待搜索词条的词性以及所述小词的词性,将所述待搜索词条的词性以及所述小词的词性作为所述小词的特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810359948.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:键值文件系统
- 下一篇:文本分类模型的生成装置、方法及计算机可读存储介质