[发明专利]搜索排序方法和装置有效
申请号: | 201510149901.1 | 申请日: | 2015-03-31 |
公开(公告)号: | CN104715063B | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 张军;牛罡;吴先超;刘占一;于佃海 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 排序 方法 装置 | ||
1.一种搜索排序方法,其特征在于,所述方法包括:
使用查询条目样本以及相应的正例搜索条目样本和负例搜索条目样本,对以短语向量集合为参数的预设模型进行训练,确定所述短语向量集合;
基于所述短语向量集合,分别计算待响应的查询条目与对应的各搜索条目的相似度;
根据所述相似度确定对所述查询条目进行响应时,各所述搜索条目的呈现顺序;
其中,所述方法还包括:
分别将所述查询条目样本、正例搜索条目样本和负例搜索条目样本转换为以所述短语向量集合为参数的待定叠加向量;
分别计算所述查询条目样本的待定叠加向量与所述正例搜索条目样本和所述负例搜索条目样本的待定叠加向量的第一相似度和第二相似度;
以所述第一相似度与所述第二相似度的差值最大化为训练目标,构建所述以短语向量集合为参数的预设模型。
2.根据权利要求1所述的方法,其特征在于,所述分别将所述查询条目样本、正例搜索条目样本和负例搜索条目样本转换为以所述短语向量集合为参数的待定叠加向量,包括:
构建所述查询条目样本与所述正例搜索条目样本的短语对应表;
基于所述短语对应表,将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列,所述第一短语序列中包括至少一个短语;
将所述第一短语序列中的各短语分别转换为待定短语向量;
分别将每个所述第一短语序列中的所有待定短语向量进行叠加,得到所述查询条目样本、正例搜索条目样本和负例搜索条目样本的以所述短语向量集合为参数的待定叠加向量;
其中,作为所述参数的短语向量集合中包括所述待定短语向量。
3.根据权利要求2所述的方法,其特征在于,
所述预设模型为损失函数模型;
所述使用查询条目样本以及相应的正例搜索条目样本和负例搜索条目样本,对以短语向量集合为参数的预设模型进行训练,确定所述短语向量集合包括:
将所述查询条目样本、正例搜索条目样本和负例搜索条目样本的待定叠加向量作为样本数据,对所述损失函数模型进行训练;
当所述损失函数模型的值最小时,得到所述短语向量集合。
4.根据权利要求2所述的方法,其特征在于,所述构建所述查询条目样本与所述正例搜索条目样本的短语对应表包括:
将所述查询条目样本与对应的所述正例搜索条目样本进行词语对齐;
将对齐后的所述查询条目样本和所述正例搜索条目样本进行短语抽取,得到所述短语对应表。
5.根据权利要求2所述的方法,其特征在于,所述基于所述短语向量集合,分别计算待响应的查询条目与对应的各搜索条目的相似度包括:
基于所述短语对应表,将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列,所述第二短语序列中包括至少一个短语;
根据所述短语向量集合,获取所述第二短语序列中各短语的短语向量;
分别将每个所述第二短语序列中的所有短语向量进行叠加,得到所述查询条目以及各所述搜索条目的叠加向量;
分别计算所述查询条目的叠加向量与各所述搜索条目的叠加向量的相似度。
6.根据权利要求5所述的方法,其特征在于,采用最大匹配方式将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列和/或将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述短语向量为维度不大于1000的低维度实数向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510149901.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多线程数据处理方法及装置
- 下一篇:一种基于网页的图片显示方法和装置