[发明专利]搜索引擎及其实现方法有效
申请号: | 201510342427.4 | 申请日: | 2015-06-18 |
公开(公告)号: | CN104899322B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 方高林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 及其 实现 方法 | ||
1.一种搜索引擎的实现方法,包括:
接收用户输入的查询请求;
搜索与所述查询请求匹配的候选结果;
基于点击转义模型确定所述查询请求与每个候选结果之间的语义相关度;以及
根据所述语义相关度对候选结果进行排序;
其中所述点击转义模型包括转义词典和/或非转义词典,所述点击转义模型中的转义词典和非转义词典通过学习查询请求与搜索结果Query-Title对的点击数而构建,所述转义词典包括确定发生转义的搜索结果的对应词语及其上下文,所述确定发生转义的搜索结果的点击展现比低于第一阈值,所述非转义词典包括确定未发生转义的搜索结果的对应词语及其上下文,所述确定未发生转义的搜索结果的点击展现比高于第二阈值。
2.根据权利要求1所述的方法,其中,确定所述查询请求与每个候选结果之间的语义相关度包括,针对每个候选结果:
确定所述查询请求与候选结果的一个或多个语句之间的语义相关度,其中所述语句包括以下至少一项:候选结果的标题、锚文本和正文中的核心句子;以及
根据所确定的查询请求与候选结果的一个或多个语句之间的语义相关度确定所述查询请求与所述候选结果之间的语义相关度。
3.根据权利要求2所述的方法,其中,确定所述查询请求与候选结果的语句之间的语义相关度包括:
基于所述点击转义模型,利用句子间的文本主题匹配模型计算所述查询请求与候选结果的语句之间的主题匹配相似度;
根据所述查询请求与候选结果的语句之间的匹配状况确定转义因子;以及
基于所述转义因子和所述主题匹配相似度计算查询请求与候选结果的语句之间的语义相关度。
4.根据权利要求3所述的方法,其中,基于所述点击转义模型计算所述查询请求与候选结果的语句之间的主题匹配相似度包括:
利用词对齐从候选结果的语句中确定与所述查询请求中的词语对齐的相邻上文和下文;
根据所述转义词典和/或非转义词典调整候选结果的语句中的对应上文和下文的相似度权重;以及
根据调整后的相似度权重,利用句子间的文本主题匹配模型计算所述查询请求与候选结果的语句之间的主题匹配相似度。
5.根据权利要求4所述的方法,其中,根据转义词典和/或非转义词典调整候选结果的语句中的对应上文和下文的相似度权重,包括:
若非转义词典中包括候选结果的语句中的对应词语及其上文或下文,则降低该上文或下文的相似度权重;以及
若转义词典中包括候选结果的语句中的对应词语及其上文或下文,则调高该上文或下文的相似度权重。
6.根据权利要求4所述的方法,其中,所述句子间的文本主题匹配模型为向量空间模型:
其中,Sim(Q,S)表示Q和S之间的主题匹配相似度,Q表示查询请求,S表示候选结果的语句,SentType(Q,S)表示两个句子类型匹配的权重系数,Wgt(w1k)表示从查询请求中得到的词w1k的相似度权重,M为词w1k的数量,Wgt(w2l)表示从候选结果的语句中得到的词w2l的相似度权重,N为词w2l的数量。
7.根据权利要求3所述的方法,其中,根据所述查询请求与候选结果的语句之间的匹配状况确定转义因子包括:
若匹配状况为查询请求中最重要的词语没有在候选结果的语句中出现,则转义因子确定为第一值;
若匹配状况为存在上下文的匹配,则转义因子确定为第二值;以及
若匹配状况为不存在上下文的完全匹配,则转义因子确定为第三值,
其中,所述第一值小于第二值,并且所述第二值小于第三值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510342427.4/1.html,转载请声明来源钻瓜专利网。