[发明专利]一种大规模文本相似度计算及文本查重方法有效

专利信息
申请号: 202010132181.9 申请日: 2020-02-29
公开(公告)号: CN111324750B 公开(公告)日: 2021-07-13
发明(设计)人: 张校源;陈骁 申请(专利权)人: 上海爱数信息技术股份有限公司
主分类号: G06F16/383 分类号: G06F16/383;G06F40/289;G06K9/62
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 叶敏华
地址: 201112 上海市闵行*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 大规模 文本 相似 计算 方法
【权利要求书】:

1.一种大规模文本相似度计算及文本查重方法,其特征在于,包括以下步骤:

S1、获取原始文本数据集,创建对应整数形式的指纹集合,其中,原始文本数据集中包含多段语句,每一段语句均有对应的一个文本id;

S2、将指纹集合及各指纹对应的文本id均以字节数据方式进行存储,得到指纹库;

S3、获取目标文本,创建对应的目标指纹;

S4、从指纹库读取所有字节数据,并将所有指纹及对应的文本id存入相应的map内存;

S5、根据目标指纹,从map内存中得到对比指纹集合,采用整数异或运算方法,分别计算目标指纹与对比指纹集合中各指纹之间的相似度,并记录各个相似度二进制数值中1的个数;

S6、当相似度二进制数值中1的个数小于或等于预设值时,则判断该相似度对应map内存中的对比指纹与目标指纹相似,通过查询map内存中该对比指纹相应的文本id,即完成目标文本的查重;

其中,所述步骤S1具体包括以下步骤:

S11、获取原始文本数据集;

S12、对数据集中每一段语句进行分词,得到每一段语句对应的特征向量;

S13、通过hash函数计算每一段语句对应特征向量的hash值;

S14、给每一段语句的各特征向量进行加权;

S15、将每一段语句的各特征向量加权结果累加,得到该段语句对应的序列串;

S16、对每一段语句对应序列串进行位移计算,得到每一段语句对应的指纹,其中,一个指纹由4个指纹整数值表示;

S17、将所有语句对应的指纹依次排列组合,得到原始文本数据集对应的指纹集合;

所述步骤S2具体是将指纹集合中各指纹及对应的文本id分别转换成字节数据,组合之后一同存入指纹库,其中,每一个指纹及对应的文本id转换后的字节数据中一共包含20个字节,20个字节中第一段4字节数据至第四段4字节数据分别对应于指纹的四个指纹整数值,第五段4字节数据对应于文本id整数值;

所述步骤S4具体包括以下步骤:

S41、从指纹库读取各字节数据;

S42、将读取的各字节数据转换成整数,一个字节数据转换后的整数包括第1~第4个指纹整数值及第5个文本id整数值;

S43、将字节数据转换成的整数对应存入5个map格式中,其中,前4个map依次存入:第1个指纹整数值及文本id整数值、第2个指纹整数值及文本id整数值、第3个指纹整数值及文本id整数值、第4个指纹整数值及文本id整数值,最后一个map作为索引map,存入的是文本id整数值及4个指纹整数值组成的完整指纹。

2.根据权利要求1所述的一种大规模文本相似度计算及文本查重方法,其特征在于,所述步骤S16中位移计算的具体过程为:按照每16位进行一次位移运算,如果大于等于0,则向右位移一位加1,如果小于0,则向右位移一位不加1,如此即可得到该段语句对应的指纹。

3.根据权利要求1所述的一种大规模文本相似度计算及文本查重方法,其特征在于,所述步骤S5具体包括以下步骤:

S51、根据目标指纹的4个指纹整数值,依次分别从第1~第4个map中寻找相同的指纹整数值,若该map中存在相同的指纹整数值,则从该map中提取该相同指纹整数值对应的文本id整数值,若该map中不存在相同的指纹整数值,则返回空值;

S52、将提取的文本id整数值进行组合,得到文本id集合;

S53、对文本id集合进行去重处理,即删除文本id集合中重复的文本id整数值,得到去重后的文本id集合,去重后的文本id集合中包含不同的文本id整数值;

S54、根据不同的文本id整数值的排序,从第5个map中提取与文本id集合中文本id整数值对应的指纹,得到对比指纹集合;

S55、采用整数异或运算方法,分别计算目标指纹与对比指纹集合中各指纹之间的相似度,并记录各个相似度二进制数值中1的个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱数信息技术股份有限公司,未经上海爱数信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010132181.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top