[发明专利]使用主题意识文件评级器的信息检索有效
申请号: | 201210023129.5 | 申请日: | 2012-02-02 |
公开(公告)号: | CN102646108A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | G.库马;陈伟华;N.E.克拉斯威尔 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李舒;刘鹏 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 主题 意识 文件 评级 信息 检索 | ||
背景技术
文件评级器评估文件以确定文件与搜索查询的相关性。评级器常常不充分考虑(account for)包括多个主题(也称作“概念”)的搜索查询,其中每个主题由一组关键字组成。即,评级器常常将相互独立地对待关键字,而不考虑关键字如何组合以形成相同的搜索查询内感兴趣的主题或话题。另外,评级器常常不能充分考虑文件内可能包括的语义上类似的关键字或主题,比如同义词和替选拼写。
发明内容
此处为了提供公开内容的概述和引入下面具体实施方式章节中进一步描述的概念的选择的原因提供本发明各种方面的高级概述。此发明内容并非意在确定要求保护主题的关键特征或必要特征,也并非意在用作确定要求保护主题范围的孤立协助。
简言之和以高级别,本公开尤其描述了确定文件分数(score),其暗示文件与搜索查询的相关性。例如,接收由表示主题的一个或多个项目(term)组成的搜索查询。对于每个主题,可以识别在语义上与该主题类似的一个或多个等价主题。通过考虑主题频率和等价主题频率这二者来确定文件分数。例如,评分函数可以通过处罚完全不能表示查询主题或它的等价主题中任意一个主题的文件把平衡文件评级得较高。
附图说明
下面参照附图详细描述本发明的说明性实施例,其中:
图1描绘了按照本发明实施例的示范性计算环境;
图2描绘了按照本发明实施例的另一个示范性计算环境;以及
图3和4包括描绘了按照本发明实施例的方法的流程图。
具体实施方式
在本文中利用特性描述了本发明选择实施例的主题以满足法定需求。但是描述本身并非意在限定被视为本发明的内容,这是权利要求完成的内容。可以结合其它目前或未来技术,以其它方式实施要求保护的主题以包括与本文件中描述的步骤类似的步骤的组合或不同步骤。除非和除了当明确叙述各步骤的次序时,术语不应当被解释成暗示本文中公开的各种步骤之中或之间的任何特定次序。
本文中描述的主题涉及确定暗示文件与搜索查询的相关性的文件分数。例如,接收由表示主题的一个或多个项目组成的搜索查询。识别在语义上与主题类似的等价主题。通过考虑主题频率和等价主题频率这二者确定文件分数。可以使用具有评级器的搜索引擎确定文件分数,这二者包括计算设备。
具体地最初参照图1,一般地用于实现本发明实施例的示范性操作环境被示出和指定为计算设备100。计算设备100只是合适计算环境的一个实例并且并非意在暗示关于本发明实施例的用途或功能范围的任何限制。也不应当把计算环境100解释成具有与图示的组件中的任何一个或组合有关的任何依赖性或需求。
可以在由计算机或其它机器(如,个人数据助理或其它手持设备)执行的包括诸如程序模块的计算机可执行指令的计算机代码或机器可用指令的总体背景中描述本发明的实施例。通常,包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。可以在包括手持设备、消费电子产品、通用计算机、更专业的计算设备等的多种系统配置中实践本发明的实施例。还可以在通过通信网络链接的远程处理设备执行任务的分布式计算环境中实践本发明的实施例。
参照图1,计算设备100包括直接或间接耦合以下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120以及说明性电源122。总线110表示什么可以是一个或多个总线(如,地址总线、数据总线或者其组合)。虽然为了清楚起见通过线示出了图1的各种块,但实际上,勾画各种组件并非如此清楚,并且打比方说,线更准确地将是灰色的和模糊的。例如,可以认为诸如显示设备的呈现组件是I/O组件。另外,处理器具有存储器。我们认识到这是本领域的本性,以及重申图1的图对可以结合本发明的一个或多个实施例使用的示范性计算设备仅是说明性的。由于全部是在图1的范围内构思以及是对“计算设备”的引用,因此在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间未做出区分。
计算设备100典型地包括多种计算机可读介质。计算机可读介质可以是计算设备100可以访问的任何可用介质并且包括易失性以及非易失性介质、可移除以及不可移除介质。通过举例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210023129.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:节能环保采暖炉
- 下一篇:环保型原竹增强轻质竹木复合材料及其加工方法