[发明专利]检测复制和近似复制的文件有效

专利信息
申请号: 200780036634.0 申请日: 2007-08-03
公开(公告)号: CN101523343A 公开(公告)日: 2009-09-02
发明(设计)人: 莫尼卡·H·亨津格尔 申请(专利权)人: 谷歌公司
主分类号: G06F7/02 分类号: G06F7/02
代理公司: 中原信达知识产权代理有限责任公司 代理人: 张焕生;安 翔
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 检测 复制 近似 文件
【说明书】:

§1.发明背景

§1.1技术领域

本发明一般涉及信息管理和检索。更具体地,本发明涉及诸如在 要搜索的文档库中检测以及可选地移除复制和近似复制的信息或内 容。

§1.2背景技术

在以下,术语“文档”应当被广义地解释并且可以包括诸如网页、 文本文件、多媒体文件、对象特征、链接结构等内容。并且,应当注 意,当检测到近似复制的文档时,作为结果,也将检测到准确复制的 文档(虽然这样的准确复制件可能不一定与近似复制件相区分)。

检测近似复制的文档具有许多潜在的应用。例如,复制或近似复 制的文档可以指示剽窃或著作权侵权。近似复制的文档检测的一个重 要应用在于信息存储和检索的环境中。

存在检测是准确复制件的文档的高效技术。检测文档是否是近似 复制件则更为困难,尤其是在文档的大型集合中。例如,因特网整体 差不多包括几十亿的“网站”文档。

在以下1.2.1中,介绍了在因特网上的复制和近似复制的文档的 源。然后,在以下§1.2.2中,介绍了由这些复制和近似复制的文档带来 的对于终端用户和对于辅助终端用户的实体的问题。最后,在以下 §1.2.3中,介绍了用于在大型文档集合的环境中检测复制和近似复制的 文档的在先技术,以及所发现的这些技术的缺点。

§1.2.1在因特网上的复制和近似复制的文档的源

在因特网上,万维网(被称为“环球网(the Web)”)可以包括 以不同的形式或在不同的地方复制的相同的文档。(自然地,其它的 网络或甚至独立的系统可以具有复制的文档)。此处介绍这样的复制 的源。

首先,一些文档在环球网的不同的站点处被“镜像”。这样的镜 像被用来在许多用户试图在同一时间请求同一个文档时降低潜在的延 迟,和/或将网络等待时间最小化(例如,通过将网页在本地缓存)。

第二,一些文档将具有带不同格式的不同版本。例如,给定的文 档可以具有纯文本和HTML(超文本标记语言)版本使得用户能够以 他们想要的形式呈现(render)或下载内容。随着越来越多的不同设备 (例如,计算机、移动电话、个人数字助理等)被用来访问因特网, 给定的文档可以具有越来越多的带不同格式的不同的版本(仅为文本、 文本加其它媒体等)。

第三,在文档的前面和后面经常附有与其在环球网上的位置有关 的信息、日期、其最近被修改的日期、版本、标题、分层分类路径(可 以将网页分类在网站分层中的一个以上的类别下)等。

第四,在一些实例中,使用一致(consistent)的词语替换从现有 的文档生成新的文档。例如,可以通过词语替换将网站“重新包装 (re-brand)”用于不同的受众。

最后,一些网页将可从环球网上的另一个源获得的内容聚合或合 并。

§1.2.2由复制和近似复制的文档带来的问题

复制和近似复制的文档给访问(例如,来自环球网的)信息的人 们和帮助人们访问期望的信息的实体(例如,搜索引擎公司)两者带 来了潜在的问题。以下介绍了这些潜在的问题。

虽然人们继续使用计算机来输入、操作和存储信息,考虑到数据 存储、网间互联(例如,因特网)、信息的互链接和交叉引用(例如, 使用超文本链接)中的发展,人们正以不断扩展的范围使用计算机(或 更一般地,信息访问机器)来访问信息。

搜索引擎已被用来帮助用户发现期望的信息。搜索引擎通常根据 用户查询搜索数据库化的内容或“网站”或“网页”。响应于用户的 查询,返回一个以排名排序的列表,该列表通常包括所发现的内容的 简单描述以及指向所发现的内容的超文本链接(即具有相关联的URL 的文本)。该列表的排名排序通常是基于出现在查询中的词语和出现 在内容中的词语的匹配。

从用户的角度,复制和近似复制的文档带来问题。更具体地,当 用户向搜索引擎提交查询时,绝大部分都不希望到具有大量冗余信息 的网页的链接(以及其描述)。例如,搜索引擎通常通过提供以十条 为一组的结果来对搜索查询作出响应。如果返回了具有复制内容的页 面,在一个组中的许多结果可能包括相同的内容。这样,需要避免提 供与具有复制内容的网页相关联(例如具有到具有复制内容的网页的 链接)的搜索结果的技术。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200780036634.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top