[发明专利]通过分析标签找到相关文档的系统和方法有效
申请号: | 200680036981.9 | 申请日: | 2006-08-03 |
公开(公告)号: | CN101283353A | 公开(公告)日: | 2008-10-08 |
发明(设计)人: | Y·卢;M·坦纳 | 申请(专利权)人: | 温克科技公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王岳;魏军 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 分析 标签 找到 相关 文档 系统 方法 | ||
相关申请
本申请根据35 U.S.C.119(e)要求了于2005年8月3日提出申请的、标题为“Techniques for Finding Relevant Documents UsingAnalysis of Tags”(用于利用标签的分析找到相关文档的技术)的第60/705,704号共同未决美国临时专利申请的优先权,通过引用将其引入本文之中。
技术领域
本发明涉及搜索文档。更具体地说,本发明涉及通过分析人们制作的标签来在因特网上搜索信息以提高搜索结果的质量或者相关性的系统和方法。
背景技术
因特网搜索引擎被设计成从因特网上包含的巨大的信息量中定位期望的信息。用户通过输入包含搜索术语的查询描述他们正在查找的信息。搜索引擎利用各种相关性计算相对网页索引匹配搜索术语,目的在于识别出那些与用户寻找的信息很可能相关的网页。然后搜索引擎返回这些网页的超链接的顺序列表,较靠近列表顶端的那些网页链接被认为是最相关的。
搜索引擎的目的是对于给定查询递交最相关的网页。搜索引擎利用各种技术,通过,例如考虑每一页内包含的信息(例如文档内搜索术语的存在、密度和近似性),考虑与网页之间的超链接有关的信息或者用户的行为(例如点击,浏览,或者评价结果或者网页)来确定网页的相关性。这些技术可以单独应用或者以各种组合一起应用以获得最佳结果。
确定哪些网页是最相关的过程是很难的,因为因特网上的网页数量非常大并且是不断增大的,而且经常存在大量网页只是名称上满足用户查询。同时,大多数用户都不精于产生和输入合式(well-formed)查询的方法,所以他们正在寻找的信息类型是模糊的。因此,通过比较将查询中的词与文档中的词相比较来确定哪些文档与查询最相关提供了有限准确性的结果。
当用户浏览或者搜索因特网时,他们可以通过给对象记录标记(reference)来给多个对象(例如网页、图像、主题、网志(也叫“博客”))制作“书签”。这些书签可以包含一个或多个“标签”,其包含用户关联于对象的一个或多个术语、到该对象的超链接(统一资源定位符或者“URL”)、用于记录关系的构件和可能的其他信息。这些书签帮助用户再调用对象且任何标签帮助再调用或者与别人交流制作过书签的对象是关于什么的。例如,如果用户访问了描述屋顶的太阳能面板的网页,那么他可以制作书签并使用术语“太阳能”将标签关联到该页。他还可以使用术语“太阳能”将关于国家太阳能退税程序的另一个网页与该标签关联。从而,该标签与术语“太阳能”与两个网页都相关联。
用户可以以各种方式输入标签,例如使用服务器应用程序、书签工具栏中的小程序、浏览器插件或者扩展、客户应用程序或者其它的应用程序。一旦标签已经输入,则通常允许用户搜索这些标签以显示与该标签相关联的那些网页。现在,已经有这样的服务,允许用户搜索他们自己的标签,或者搜索别人的标签。
书签提供某种指示,即用户重视对象(例如网页),标签另外提供某种指示,用户将某一或者多个术语与该对象关联。在确定该网页是否应该作为搜索引擎的查询结果而被显示的时候该信息可能是重要的,因为它是实际的人们对该网页感兴趣的指示,也是与特定对象的关联。
所需要的是具有这样一种搜索引擎,在确定哪些网页、图像、博客或者其他对象与用户的查询相关时考虑与各种网页、图像、博客或者其他对象相关联的标签。
发明内容
本发明实施例响应搜索查询为用户提供了对象列表(结果列表)。该结果列表是基于每个对象相对于查询的相关性而组织的。优选地,相关性基于对该对象制作标签,对该对象制作书签,两者都有,或者表明对象相对于搜索的相关性或者值的任何其他用户操作。
在本发明的第一方面中,一种确定多个对象相对于查询的相关性的方法,包括记录标记对象的“书签”和/或将多个标签与这些对象相关联,并且对于任何给定查询为多个对象的每个对象确定相关性分数。该方法用来稍后组织对象以在响应于搜索查询而返回的结果列表中显示。对象包括到网页、文本、图像、图片、标签、标签组、主题区域、概念、音频文档、视频文档、软件或者任何这些的组合的超链接或者超链接组。
多个标签中的每个标签包含一个或多个术语。该方法还包括将一个或多个术语中的每一术语与对象相关联,从而定义一个或多个相应的术语-对象对,并且为每个术语-对象对确定表明术语和对象之间的相关性程度的术语分数。可选的,或者另外该方法还包括为该对象制作书签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温克科技公司,未经温克科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680036981.9/2.html,转载请声明来源钻瓜专利网。