[发明专利]文件指纹生成在审

专利信息
申请号: 201880096559.5 申请日: 2018-12-28
公开(公告)号: CN112567363A 公开(公告)日: 2021-03-26
发明(设计)人: 任力伟 申请(专利权)人: 北京嘀嘀无限科技发展有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F9/4401;G06F21/56
代理公司: 北京睿派知识产权代理事务所(普通合伙) 11597 代理人: 刘锋
地址: 100193 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文件 指纹 生成
【说明书】:

可以获得文件内的字符串。可以从所述字符串中选择第一序列。可以基于所述第一序列生成第一哈希。可以基于所述第一序列从所述字符串中选择第二序列。所述第二序列可以从所述第一序列移位。可以基于所述第二序列生成第二哈希。可以基于所述第一哈希和所述第二哈希生成所述文件的指纹。

相关申请

本申请要求于2018年7月10日提交的名为“File Fingerprint Generation(文件指纹生成)”的第16/031,364号美国非临时专利申请案的权益,该申请的内容通过引用的方式并入本文。

技术领域

本公开总体上涉及生成文件指纹。

背景技术

文件指纹可用于识别文件。文件指纹可以用在文件管理系统中,如数据安全系统或数据丢失预防系统。例如,文件指纹可用于搜索文件、对文件分类、清理文件(例如,重复文件删除)、比较文件、过滤文件(例如,垃圾邮件过滤)或保护文档。如果文件指纹不是唯一的,则依赖文件指纹的系统可能无法正常运行。例如,如果系统使用文件指纹搜索文件,并且两个不同的文件具有相同的文件指纹(冲突),则搜索文件中的一个会输出两个文件。文件指纹冲突可能导致数据安全系统或数据丢失预防系统的不当运行,如文件不当安全分类或数据泄漏。文件指纹冲突可能引起计算资源的浪费。例如,可能需要大规模的CPU计算来检测文件指纹冲突并重新计算对应的文件的文件指纹。亟需一种文件指纹工具能在减少冲突次数的同时快速生成文件指纹。

发明内容

本公开的一个方面涉及一种用于生成文件指纹的方法。所述方法可以包括:获得文件内的字符串;从所述字符串中选择第一序列;基于所述第一序列生成第一哈希;基于所述第一序列从所述字符串中选择第二序列,其中,所述第二序列从所述第一序列移位;基于所述第二序列生成第二哈希;以及基于所述第一哈希和所述第二哈希生成文件的指纹。

本公开的另一个方面涉及一种用于生成文件指纹的系统。所述系统可以包括一个或多个处理器和存储指令的存储器。所述指令,当由所述一个或多个处理器执行时,可使得所述系统执行以下步骤:获得文件内的字符串;从所述字符串中选择第一序列;基于所述第一序列生成第一哈希;基于所述第一序列从所述字符串中选择第二序列,其中,所述第二序列从所述第一序列移位;基于所述第二序列生成第二哈希;以及基于所述第一哈希和所述第二哈希生成所述文件的指纹。

在一些实施例中,所述第一哈希的生成可以包含:基于所述第一序列内的字符进行的哈希函数的第一计算;所述第二哈希的生成可以包含基于所述第二序列内的字符进行的所述哈希函数的第二计算;并且所述哈希函数的所述第二计算可以复用所述哈希函数的所述第一计算的一部分。

在一些实施例中,所述哈希函数可以包含滚动哈希。

在一些实施例中,从所述字符串中选择所述第一序列可以包含:将所述字符串划分成字符串部分;以及选择所述字符串部分中的一个作为第一字符串部分,所述第一字符串部分包含所述第一序列。

在一些实施例中,所述字符串部分可以包括k元语法符号,所述k元语法符号包括来自所述字符串的k个字符的序列。

在一些实施例中,所述第一字符串部分可以包含来自所述字符串的k个字符的第一序列;第二字符串部分可以包含来自所述字符串的k个字符的第二序列;并且所述k个字符的第二序列可以通过从所述k个字符的第一序列移位n个字符来选择。

在一些实施例中,从所述k个字符的第一序列移位n个字符可以包含在反向方向上从所述k个字符的第一序列移位一个或两个字符。

在一些实施例中,从所述k个字符的第一序列移位n个字符可以包含在正向方向上从所述k个字符的第一序列移位一个或两个字符。

在一些实施例中,获得所述文件内的所述字符串可以包含:获得所述文件,所述文件包含文本;提取所述文件的所述文本;以及对所述文件的所述提取的文本进行归一化。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880096559.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top