[发明专利]基于知识的实体检测和消歧有效
申请号: | 201210582225.3 | 申请日: | 2012-12-28 |
公开(公告)号: | CN103177075A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 李康;李鹢;周一萍;吕正东;曹涌 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 李舒;汪扬 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 实体 检测 | ||
背景技术
因特网提供了对大量信息的访问。给予信息量的主要挑战是如何查找和发现信息以向用户提供针对特定环境的最相关的信息。现今用于完成此的最常用的工具是提供给搜索引擎的基于关键词的搜索查询。搜索引擎将接收到的关键词与搜索索引中的一个或多个词或短语进行匹配,以便标识与用户的查询潜在相关的文档、网页或其它内容。例如,如果用户搜索“恐龙(dinosaurs)”,则搜索引擎给用户提供搜索结果的列表,所述搜索结果是到包含该术语的web页面的链接。
用户查询通常包含由与实体相关联的名称或属性所标识的一个或多个实体(例如,人、位置或组织名称)。例如,一个查询可能搜索“Barack Obama(巴拉克 奥巴马)”,而另一个可能搜索“President of the United States(美国总统)”。这两个查询都正在寻找与特定实体相关的信息。用户还可以搜索位置,诸如饭店、银行、购物中心等等。实体可以包括任何类型的可命名的事物,不管它是公司、人、消费品或是服务等等。
现今,当用户使用搜索引擎搜索命名实体时,搜索引擎呈现了可能是关于具有相同或类似名称的不同实体的混合的混杂结果。例如,对于查询“harry shum”,一个最近的搜索引擎以混合的次序返回关于三个不同人的页面:位置1、3、5和8是关于在微软的在线服务部门的公司副总裁的;位置2、4、6和9是关于在Glee中饰演了Mike Chang的美国演员和舞蹈家Harry Shum Jr.的;以及位置7是关于又一个Harry的,其为IP Systems(IP系统)的网络支持工程师。从用户的查询实际上不清楚用户正试图查找这些人中的哪一个,但是很可能的是,用户仅对他们中的一个感兴趣,并且结果的大量子集因此是不相关的。搜索引擎无能力解析网页中的实体实例的潜在身份阻碍了它们有效地组织搜索结果的能力。
发明内容
在本文中描述了基于实体的搜索系统,其检测并且识别基于因特网的内容中的实体并且使用这个识别来组织搜索结果。该系统将一个或多个实体标识符与某个网页相关联,并且将此信息作为该页面的元数据存储在搜索引擎索引中。这个元数据将在搜索引擎结果页面(SERP)中使能基于实体的查询以及丰富的数据呈现,包括:按实体对结果进行分组;按一个或多个特定实体对结果进行过滤;或者基于实体的用户偏好对搜索结果进行重新排名。该系统提供了:用于检测文本数据中的实体实例的方法;用于基于知识储存库生成针对每个实体实例的候选消歧(disambiguation)组的方法;用于解析该候选消歧组中的实体实例的身份的方法;以及用于索引被消歧的实体的实体标识符以允许对搜索结果的基于实体的检索和分组的方法。因此,所述基于实体的搜索系统允许用户标识该用户有兴趣查找的特定实体,并且允许接收与该实体直接相关的搜索结果。
本发明内容被提供来以简化的形式介绍概念的选择,这些概念下面在具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,它也不旨在被使用来限制所要求保护的主题的范围。
附图说明
图1是图示了一个实施例中的、基于实体的搜索系统的构件的方块图。
图2是图示了一个实施例中的、基于实体的搜索系统在基于实体的知识的基础上标识搜索结果的处理的流程图。
图3是图示了一个实施例中的、基于实体的搜索系统发现内容的语料(corpus)中的实体的处理的流程图。
图4是图示了一个实施例中的、针对术语“Harry Shum”的搜索的样本结果的显示图。
具体实施方式
在本文中描述了基于实体的搜索系统,其检测并且识别基于因特网的内容中的实体并且使用这个识别来组织搜索结果。实体检测和消歧的一个目标是用明白地标识了实体的可区分的标识符来给网页(或其它类型的文本数据)中的命名实体加标签。所述系统将一个或多个实体标识符与某个网页相关联,并且将此信息作为该页面的元数据存储在搜索引擎索引中。这个元数据将在搜索引擎结果页面(SERP)中使能基于实体的查询以及丰富的数据呈现,包括:按实体对结果进行分组;按一个或多个特定实体对结果进行过滤;或者基于实体的用户偏好对搜索结果进行重新排名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210582225.3/2.html,转载请声明来源钻瓜专利网。