[发明专利]搜索索引中单词的索引角色分层结构无效
申请号: | 200880105548.5 | 申请日: | 2008-09-02 |
公开(公告)号: | CN101796510A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | M·H·范登伯格;G·L·蒂奥内;C·P·沃尔特斯;R·S·克鲁奇 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦;钱静芳 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 索引 单词 角色 分层 结构 | ||
背景
搜索变为用于进行研究或导航可经由计算机访问的文档的越发重要的工具。通常,搜索引擎执行利用由用户提交的查询来检测可能文档、或这些文档内的文本的匹配进程。最初,例如由诸如由Google或Yahoo维护的那些搜索引擎等常规搜索引擎在线提供的匹配进程允许用户在查询中指定一个或多个关键字以描述她/他正在寻找的信息。接着,常规在线搜索引擎继续寻找包含这些关键字的精确匹配的所有文档并通常将每一文档的结果演示为其中包括由用户提供的关键字中的一个或多个的文本框。
假设,例如,用户期望发现哪个实体购买了公司PeopleSoft。将具有关键字“谁购买了PeopleSoft”的查询输入到常规在线引擎,其产生以下内容作为其结果之一:“J.Williams是一位官员,他在1990年代晚期创立了Vantive,其在1999年被PeopleSoft购买。”在此结果中,检索到的文本中精确匹配来自查询的关键字“谁”、“购买”、以及“PeopleSoft”的单词是粗体的以向用户给出为什么返回此结果的某些理由。因此,提供促进精确关键字匹配的匹配进程对用户而言并不高效且通常误导多于有用。
现有常规在线搜索引擎被限于它们既不识别所搜索的文档中除由匹配过程产生的精确匹配以外对应于查询中的关键词的单词(例如,注意PeopleSoft是公司、或IBM和Big Blue是相同的)也不识别单词在文档中扮演的不同角色(例如,不能区分PeopleSoft是Vantive收购的作用者还是Oracle收购的目标)。同样,常规在线搜索引擎是受限的,因为用户被限于查询中要匹配的关键词,并因此如果信息是未知的则不允许用户精确地表达该信息。因此,实现识别查询的关键词与被搜索文档中的单词之间的语言关系的自然语言搜索引擎将独特地增加搜索结果的准确性。
概述
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明的各实施例通常涉及用于在数据存储中寻找匹配由用户提交的自然语言查询的文档的计算机可读介质和计算机系统。通过确定查询内的单词彼此具有与文档中的相同单词相同的关系来匹配这些文档和查询。例如,在句子“约翰在工作时读书”中,“约翰”是句子的主语而“书”是句子的宾语。可响应于查询“约翰在哪里读书”返回包含此句子的文档,因为“约翰”是该查询的主语而“书”是该查询的宾语。可返回数据存储中“约翰”作为主语以及“书”作为宾语的其它文档。
使用可搜索索引将查询中的单词和关系与文档文本内的单词和关系匹配。本发明的各实施例提取文本文档中的单词之间的一个或多个关系并将这些附加的更宽泛的关系与单词相关联地存储在索引中。本发明的各实施例还可提取查询中的单词之间的关系并使用这些附加的单词/关系组合来搜索索引。可使用角色分层结构来提取单词的角色。角色分层结构以角色离根角色越远则角色变得越具体的方式来组织角色。在角色分层结构中,通用角色是根节点而角色的更具体的实施例是子层节点。主角色是更为通用或抽象的角色。从属角色适合主角色的通用定义内但更具体。例如,在句子“约翰在工作时阅读”中,“在”可以描述书何时被阅读。可使用诸如“之前”或“之后”等其它单词来表达“何时”。因此,“何时”是可包括“在”、“之前”、以及“之后”作为从属角色的主角色。“在”、“之前”、以及“之后”都描述“何时”的具体示例。因此,可通过使“何时”与“书”相关联来扩展、或概括与“书”相关联的“在”关系。
在本发明的各实施例中,可提取由单词在文档中扮演的角色并将其存储在索引中。在另一实施例中,在索引时不扩展分配到来自文档的单词的角色。相反,扩展与搜索查询中的单词相关联的角色并使用其来搜索索引。在另一实施例中,扩展与文档和查询两者中的单词相关联的角色。
附图简述
以下参考附图详细描述本发明,附图中:
图1是适用于实现本发明的各实施例的示例性计算环境的框图;
图2是适用于实现本发明的各实施例的示例性系统体系结构的示意图;
图3是示出根据本发明的实施例的扩展并索引句子内的单词之间的语义关系的方法的流程图;
图4是示出根据本发明的实施例的三个角色分层结构的图示;
图5是示出根据本发明的实施例的单个角色分层结构的图示;
图6是示出根据本发明的实施例索引与一个或多个单词相关联的扩展的角色的图示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880105548.5/2.html,转载请声明来源钻瓜专利网。