[发明专利]一种文档检测的方法、服务器及计算机可读存储介质在审
| 申请号: | 201711468430.6 | 申请日: | 2017-12-29 |
| 公开(公告)号: | CN108021951A | 公开(公告)日: | 2018-05-11 |
| 发明(设计)人: | 宋鹏举 | 申请(专利权)人: | 北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 张然 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 检测 方法 服务器 计算机 可读 存储 介质 | ||
1.一种文档检测的方法,其特征在于,包括:
构建预设文档的指纹库,所述指纹库用于存储所述预设文档的特征数据;
根据所述指纹库中的特征数据,对待检测文档进行相似度检测和文档重复度检测。
2.根据权利要求1所述的方法,其特征在于,所述构建预设文档的指纹库,具体包括:
抽取预设文档中的内容,通过局部敏感哈希算法生成所述预设文档的特征词和特征字,并获取所述预设文档中的语句块,将所述特征词、所述特征字和所述语句块存入指纹库。
3.根据权利要求1所述的方法,其特征在于,根据所述指纹库中的特征数据,对待检测文档进行相似度检测和文档重复度检测,具体包括:
根据所述指纹库和待检文档的特征数据,对待检文档和预设文档进行相似度检测,并对待检文档和预设文档进行文档重复度检测。
4.根据权利要求3所述的方法,其特征在于,还包括:
抽取所述待检文档的特征数据。
5.根据权利要求4所述的方法,其特征在于,抽取所述待检文档的特征数据,具体包括:
通过局部敏感哈希算法抽取所述待检文档的特征词和特征字。
6.根据权利要求3所述的方法,其特征在于,对待检文档和预设文档进行文档重复度检测,具体包括:
判断待检文档中是否存在预设文档中的语句块,如果是,则记录待检文档存在所述语句块的个数,否则,则判定待检文档与所述预设文档不存在重复。
7.根据权利要求6所述的方法,其特征在于,判断待检文档中是否存在预设文档中的语句块,具体包括:
判断待检文档中是否存在,与预设文档中的语句块意思相同,且与所述语句块的字数的差值在预设字数范围内的语句块,如果是,则确定待检文档存在所述语句块。
8.根据权利要求1所述的方法,其特征在于,
所述特征数据包括以下中的一种或多种:特征字、特征词和语句块。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器及通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的计算机指令,以实现权利要求1至8中任一项所述的文档检测的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至8中任一项所述的文档检测的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司,未经北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711468430.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种温湿控大棚内循环加湿装置
- 下一篇:一种分布式光纤温度和应变传感装置





