[发明专利]使用编辑距离和文档信息进行搜索结果排名有效

专利信息
申请号: 200980112928.6 申请日: 2009-03-10
公开(公告)号: CN101990670A 公开(公告)日: 2011-03-23
发明(设计)人: V·坦科维奇;H·李;D·梅耶泽;J·徐 申请(专利权)人: 微软公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06F17/21
代理公司: 上海专利商标事务所有限公司 31100 代理人: 顾嘉运;钱静芳
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 使用 编辑 距离 文档 信息 进行 搜索 结果 排名
【说明书】:

背景

在典型的搜索引擎服务中,用户可以通过从URL(统一资源定位符)的索引集合中选出与查询相匹配的最相关文档来输入查询。为了快速对查询进行服务,搜索引擎利用将关键字映射到文档的一种或多种方法(例如,倒排索引数据结构)。例如,引擎所执行的第一步骤可以是标识包含用户查询所指定的关键字的候选文档的集合。这些关键字可以位于文档正文或元数据或实际上存储在其他文档或数据存储中的关于该文档的附加元数据(如锚文本)中。

在一大型索引集合中,取决于查询项的共同性,候选文档集合的基数可以很大(例如,可能有数百万)。并非返回整个候选文档集合,搜索引擎根据相关性来执行对候选文档进行排名的第二步骤。通常,搜索引擎利用排名功能来预测文档与特定查询的相关性程度。排名功能从文档取得多个特征作为输入,并且计算允许搜索引擎按照所预测的相关性对文档进行排序的数量。

排名功能相对于该功能有多准确地预测文档的相关性的质量由用户对搜索结果的满意度或用户发现所提问题的答案的平均次数来最终确定。对系统的总体用户满意度可以由单个数字(或度量)来近似,因为该数字可以通过改变排名功能来优化。通常,该度量是在通过对查询日志进行随机采样来预先选择的代表性查询集合上计算的,并且涉及向引擎对于评估查询中的每一个所返回的每一结果分配相关性标记。然而,用于文档排名和相关性的这些过程仍然不足以提供所需结果。

概述

以下提出了简化概述以便提供对在此处描述的某些新颖实施例的基本理解。本概述不是详尽的概览,它不旨在标识关键/重要的元素,也不旨在描绘其范围。其唯一的目的是以简化的形式来介绍一些概念,作为稍后提出的更详细描述的序言。

该体系结构提供用于基于查询串从作为搜索结果接收到的文档中提取文档信息并计算数据串与该查询串之间的编辑距离的机制。数据串可以是从诸如TAUC(标题、锚文本、URL(统一资源定位符)、以及点击)等文档信息获得的文档的简短且准确的描述。编辑距离被用于确定文档的相关性以作为结果排名的一部分。该机制使用一组邻近度相关特征来检测整个查询或查询的一部分的接近匹配以改进搜索结果排名的相关性。

处理编辑距离以评估查询串与包括该文档信息的给定数据流有多接近。该体系结构包括对URL中的混合项进行的索引时间划分,以用于允许更高效地发现查询项。另外,锚文本的索引时间过滤被用来寻找文档结果中的一个或多个的前N个锚。使用TAUC信息可被输入到神经网络(例如,2层)以改进用于对搜索结果进行排名的相关性度量。

为实现上述及相关目的,本文结合下面的描述和附图描述某些说明性方面。然而,这些方面仅指示了可采用此处公开的原理的各种方法中的少数几种,且旨在包括所有这些方面及等效方面。结合附图阅读下面的详细描述,则其他优点和新颖特征将变得清楚。

附图简述

图1示出计算机实现的相关性系统。

图2示出用于计算编辑距离的示例性匹配算法的流程图。

图3示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值。

图4示出使用经修改的编辑距离和匹配算法来基于查询串和数据串处理并生成编辑距离值的另一示例。

图5示出使用神经网络来帮助生成文档的相关性分数的计算机实现的相关性系统。

图6示出可以在用于确定查询串与数据串之间的编辑距离的文档信息中使用的数据的类型。

图7示出索引时间处理数据流。

图8示出例示来自图7的索引过程的、用于结果排名的对神经网络的输入的框图。

图9示出用于计算生成搜索结果的神经网络、编辑距离输入以及原始特征输入的示例性系统实现。

图10示出确定文档结果集的文档相关性的方法。

图11示出计算文档的相关性的方法。

图12示出根据所公开的体系结构的可用于使用TAUC特征执行编辑距离处理以进行搜索结果排名的计算系统的框图。

详细描述

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200980112928.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top