[发明专利]检测复制和近似复制的文件有效
| 申请号: | 200780036634.0 | 申请日: | 2007-08-03 |
| 公开(公告)号: | CN101523343A | 公开(公告)日: | 2009-09-02 |
| 发明(设计)人: | 莫尼卡·H·亨津格尔 | 申请(专利权)人: | 谷歌公司 |
| 主分类号: | G06F7/02 | 分类号: | G06F7/02 |
| 代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 张焕生;安 翔 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 检测 复制 近似 文件 | ||
1.一种计算机实现的方法,包括:
爬行网络上可访问的文档,以识别文档的集合,所述文档的集合 中的每个文档包括标志序列位串的集合;
使用第一文档相似性技术处理所述文档的集合以确定近似复制的 文档的第一集合,其中,所述第一文档相似性技术依赖于标志次序并 且独立于标志频率;
使用第二文档相似性技术处理近似复制的文档的所述第一集合以 确定近似复制的文档的第二集合,其中所述第二文档相似性技术独立 于标志次序并且依赖于标志频率;
使用所述第二文档相似性技术处理所述文档的集合以识别近似复 制的文档的第三集合;以及
从所述文档的集合移除近似复制的文档的最终集合,并且然后对 所述文档的集合中的任意剩余文档进行索引,其中近似复制的文档的 所述最终集合是近似复制的文档的所述第二集合和近似复制的文档的 所述第三集合的并集。
2.如权利要求1所述的计算机实现的方法,其中所述第一文档相 似性技术使用基于两个文档的标志的子集的表示来确定所述两个文档 是否是近似复制件,并且其中所述第二文档相似性技术使用基于两个 文档的所有标志的表示来确定所述两个文档是否是近似复制件。
3.如权利要求1所述的计算机实现的方法,其中所述第一文档相 似性技术使用集合相交来确定文档是否是近似复制件,并且其中所述 第二文档相似性技术使用随机投射来确定文档是否是近似复制件。
4.如权利要求1所述的计算机实现的方法,其中所述第一文档相 似性技术包括:
对每一个k个标志的子序列采指纹以生成以下一个:(A)n-k+1 个shingle,或(B)n个shingle;
将m个不同的随机排列函数fi应用到所述shingle的每一个,以对 于所述m个随机排列函数fi的每一个生成以下一个:(A)n-k+1个值, 或(B)n个值,其中1≤i≤m;
对于每一个i,确定最小的值以创建最小值的m维向量;
通过对最小值的非重叠序列采指纹来将所述最小值的m维向量降 低至supershingle的m’维向量;以及
在且仅在两个文档的supershingle的向量在至少两个supershingle 上相合的情况下,推断所述两个文档是近似复制件。
5.如权利要求1所述的计算机实现的方法,其中所述第一文档相 似性技术包括:
对每一个k个标志的子序列采指纹以生成以下一个:(A)n-k+1 个shingle,或(B)n个shingle;
通过将m个不同的采指纹函数fi应用到所述shingle的每一个来对 每一个shingle采指纹,以对于所述m个采指纹函数fi的每一个生成以 下一个:(A)n-k+1个值,或(B)n个值,其中1≤i≤m;
对于每一个i,确定最小的值以创建最小值的m维向量;
通过对最小值的非重叠序列采指纹来将所述最小值的m维向量降 低至supershingle的m’维向量;以及
在且仅在两个文档的supershingle的向量在至少两个supershingle 上相合的情况下,推断所述两个文档是近似复制件。
6.如权利要求5所述的计算机实现的方法,其中m=84,m’=6并 且k是从5到10的任何整数值。
7.如权利要求6所述的计算机实现的方法,其中k=8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780036634.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于存储和访问数据的方法
- 下一篇:使用原位图像修改层的高分辨率成像工艺





