[发明专利]用于搜索电子内容的方法、计算系统和计算机可读介质有效
申请号: | 201210587281.6 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103064956A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 胡云华;李航 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;李春晖 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 搜索 电子 内容 方法 计算 系统 计算机 可读 介质 | ||
技术领域
本发明涉及搜索领域,更具体地涉及搜索中的相关度排序,尤其涉及用于搜索中相关度排序的提取搜索聚焦的关键n元组和/或短语。
背景技术
作为搜索引擎进行的最重要处理之一的相关度排序分配表示文档关于查询的相关程度的得分,并根据它们的得分对文档进行排序。在网络搜索中,相关度排序模型分配表示网页关于查询的相关程度的得分,并根据得分对网页进行排序。相关度排序模型可使用诸如标题、正文、URL、锚链接文本以及页面的搜索日志数据中查询词的词频这样的信息,用于表示相关度。
传统地,通过被调整的少数参数手动地产生相关度排序模型。近来,被称为学习排序的机器学习技术也已经应用于排序模型构造。诸如Vector Space Model(向量空间模型)、BM25(也称为Okapi BM25)、Language Model for Information Retrieval(用于信息检索的语言模型)、Markov Random Field(马尔科夫随机场)这样的传统模型以及学习排序模型都使用查询和文档中存在的n元组作为特征。在所有这些技术中,查询和文档被视作n元组的向量。直观地,如果查询的n元组在文档中出现多次,那么很可能该文档与查询相关。
存在具有丰富信息(诸如锚链接文本和搜索-查询日志数据)的流行的网页。对于这些页面,排序模型容易预测页面关于查询的相关度,并为它们分配可信的相关度得分。与之不同,也有不太流行的、不包含足够的信息的网页。对于这些信息不足够的页面正确计算相关度成为一个很有挑战性的问题。
如同这里所述,具有很多锚链接文本和搜索-查询日志数据中的关联查询的网页被称为头部网页,具有较少锚链接文本和关联查询的网页被称为尾部页面。这意味着如果有网页的访问分布,那么头部页面应当具有高访问频率,而尾部页面具有低访问频率。网络搜索的最难的问题之一是改进尾部网页的相关度排序。
发明内容
在一些实施例中,一种搜索电子内容的方法包括:至少部分地基于从搜索-查询日志挖掘的信息,从多个检索的电子文档提取搜索聚焦的信息;将所提取的搜索聚焦的信息表示为关键n元组和/或短语;以及至少部分地基于所提取的搜索聚焦的信息的特征或特性中的至少之一,对搜索结果中的检索的电子文档排序。
在一些实施例中,一种搜索提供者的计算系统,包括:至少一个处理器;至少一个存储装置,用于存储搜索聚焦的数据和计算机可执行指令,搜索聚焦的数据包括n元组和/或短语、内容定位符和n元组/短语权重,每个n元组和/或短语从至少一个电子文档提取,每个内容定位符识别从其提取对应的提取的n元组和/或短语的电子文档的位置,以及每个n元组/短语权重与提取的n元组和/或短语相关联,并且提供关联的提取的n元组和/或短语关于从其提取关联的提取的n元组和/或短语的对应电子文档的相关度的量度,当在一个或多个处理器上执行时,计算机可执行指令使得所述一个或多个处理器执行以下操作,包括:响应于搜索查询,至少部分地基于所述搜索查询来检索多个电子文档;以及至少部分地基于所述搜索聚焦的数据的至少一个n元组/短语权重,计算检索的电子文档的相关度排序。
可以至少部分地基于从搜索-查询的日志挖掘的搜索聚焦的信息来训练n元组和/或短语提取模型。n元组和/或短语提取模型可以至少部分地基于关键n元组和/或短语的特征和/或特性以及至少部分地基于搜索聚焦的信息的特征和/或特性,从检索的电子文档中提取关键n元组和/或短语。提取的关键n元组和/或短语可以被加权。可以至少部分地基于由n元组和/或短语提取模型提取的信息训练相关度排序模型。相关度排序模型可以至少部分地基于提取的n元组和/或短语的权重,提供针对搜索结果中列出的电子文档当的相关度排序得分。
提供发明内容是为了以简化形式介绍下面在具体实施方式中进一步描述的概念的选择。发明内容不意在识别所主张的主题的关键特征或基本特征,也不意在限制所主张的主题的范围。
附图说明
参照附图描述具体实施方式。在附图中,附图标记最左边的数字指示该附图标记首次出现的附图。不同附图中相同的附图标记表示相似或相同的项。
图1是用于提供搜索结果的示例性环境的示意图,其中从电子文档提取搜索聚焦的信息。
图2是电子文档的示意图。
图3是用于记录搜索聚焦的n元组和/或短语数据的示例性数据结构的方框图。
图4是用于从电子文档提取搜索聚焦的信息的示例性处理的流程图。
图5是用于至少部分地基于提取的搜索聚焦来提供相关度排序的示例性处理的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210587281.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种沼气池
- 下一篇:一种模具旋转喷漆装置
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法