[发明专利]搜索方法和设备有效
| 申请号: | 201080034010.7 | 申请日: | 2010-06-01 |
| 公开(公告)号: | CN102460440A | 公开(公告)日: | 2012-05-16 |
| 发明(设计)人: | J·J·李;A·W·霍奎;D·N·奎因;A·比昂;D·洛雷托;R·G·布朗;Y·R·科佩尔;J·A·科莫罗斯克;C·内维尔-曼宁 | 申请(专利权)人: | 谷歌公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索 方法 设备 | ||
技术领域
本说明书涉及例如通过搜索非结构化电子文档汇集、利用有关实例的分组的用户校正或者标识来改进搜索结果中的排名。
背景技术
搜索通常是用户录入搜索查询并且接收结果集中的响应结果的自动化过程。结果例如在存储于数据存储设备上的机器可读的数字数据汇集中标识与搜索查询相关的内容。
电子文档是机器可读数字数据的汇集。电子文档通常为个别文件并且根据限定的格式(例如PDF、TIFF、HTML、XML、MS Word、PCL、PostScript等)来格式化。电子文档汇集可以在一个或者多个数据存储设备上存储为数字数据。
电子文档汇集可以是非结构化的或者结构化的。在非结构化电子文档汇集中的文档的格式化不限于遵从预定结构并且可以按照经常未预见的方式演变。换言之,在非结构化电子文档汇集中的个别文档的格式化在整个文档汇集中既不是限制性的也不是不变的。另外,在非结构化电子文档汇集中,没有用于保证新文档坚持一种格式或者对格式的改变应用于先前存在文档的机制。因此,无法期望在非结构化电子文档汇集中的文档共享可以在提取信息时利用的共同结构。非结构化电子文档汇集的示例包括因特网上可用的文档、简历汇集、期刊文章汇集和新闻文章汇集。并不禁止一些非结构化电子文档汇集中的文档包括指向汇集以内和以外的其它文档的链接。
对照而言,在结构化电子文档汇集中的文档通常遵从可以是限制性的并且不变的格式。对结构化电子文档汇集中的文档施加的格式可以是限制性的,因为共同格式即使在应用的格式未完全适合时仍然应用于汇集中的所有文档。格式可以是不变的,因为由汇合结构化电子文档汇集的一方对特定格式的在先承诺通常是必需的。另外,汇集的用户—特别是使用汇集中的文档的计算机程序—依赖于文档具有预期的格式。因而,格式改变可能难以实施。结构化电子文档汇集最佳地适合于如下应用,其中信息内容适宜于简单和稳定的分类。因此,在结构化电子文档汇集中的文档通常共享可以在提取信息时利用的共同结构。结构化电子文档汇集的示例包括根据分级和关系数据模型通过数据库管理系统(DBMS)组织和查看的数据库,以及由单个实体为了一致地呈现信息而创建的电子文档汇集。例如,由在线书商为了呈现关于个别书籍的信息而提供的网页汇集可以形成结构化电子文档汇集。作为另一示例,由服务器侧脚本创建的并且通过应用服务器查看的网页汇集可以形成结构化电子文档汇集。因此,一个或者多个结构化电子文档汇集可以各自是非结构化电子文档汇集的子集。
实例是个别可标识实体。可以根据实例的属性来将它们分组。属性是实例的性质、特征或者特性。实例的分组可以由一个或者多个属性限定。属于分组的实例由限定该组的属性确定。例如,实例纽约、芝加哥和东京可以被一起分组为城市,而从北美城市的分组排除东京。
发明内容
本说明书描述涉及利用用户校正来改进搜索的技术,以及涉及标识有关实例的一个或多个分组的技术。在一些实现中,通过搜索非结构化电子文档(例如,在因特网上可获得的电子文档)汇集来标识有关实例标识符的分组。
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于由数据处理装置执行的如下方法中,该方法包括动作:接收值结果集,该值结果集包括一个或者多个值的汇集,该值是用于表征实例属性的候选;访问在一个或者多个数据存储设备处存储的用户校正历史记录,该历史记录描述对由值表征的实例属性的用户校正;确定用户校正历史记录描述涉及到值结果集中的值的第一用户校正,其中在校正中涉及到该值作为经校正值或者未校正值;以及改变置信度参数,该置信度参数体现涉及到的值正确表征实例属性的置信度。
这一方面的其它实施例包括对应的系统、装置和在计算机存储设备上编码的、配置成执行方法的动作的计算机程序。
这些以及其它实施例可以各自可选地包括以下特征中的一个或者多个特征。该方法可以包括对值结果集中的值排名、以反映改变的置信度参数以及在显示屏上可视地显示值结果集的至少部分。输出值结果集的至少部分可以包括向用户呈现结构化呈现。结构化呈现可以由在值结果集中包括的第一值填充(populate)。第一值是值结果集中的最可能正确表征实例属性的值。可视地显示值结果集的至少部分可以包括显示候选窗,该候选窗包括用于表征实例属性的候选值。改变置信度参数可以包括生成适合于向缩放置信度评级应用的增量值(delta value)。缩放置信度评级可以体现涉及到的值正确表征实例属性的置信度。生成增量值可以包括对涉及到的值的用户校正的分类加权或者对用户校正分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080034010.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变电站巡检机器人装车升降装置
- 下一篇:可遥控式厢式车装卸系统





