[发明专利]一种大规模文本相似度计算及文本查重方法有效
| 申请号: | 202010132181.9 | 申请日: | 2020-02-29 |
| 公开(公告)号: | CN111324750B | 公开(公告)日: | 2021-07-13 |
| 发明(设计)人: | 张校源;陈骁 | 申请(专利权)人: | 上海爱数信息技术股份有限公司 |
| 主分类号: | G06F16/383 | 分类号: | G06F16/383;G06F40/289;G06K9/62 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 叶敏华 |
| 地址: | 201112 上海市闵行*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 大规模 文本 相似 计算 方法 | ||
1.一种大规模文本相似度计算及文本查重方法,其特征在于,包括以下步骤:
S1、获取原始文本数据集,创建对应整数形式的指纹集合,其中,原始文本数据集中包含多段语句,每一段语句均有对应的一个文本id;
S2、将指纹集合及各指纹对应的文本id均以字节数据方式进行存储,得到指纹库;
S3、获取目标文本,创建对应的目标指纹;
S4、从指纹库读取所有字节数据,并将所有指纹及对应的文本id存入相应的map内存;
S5、根据目标指纹,从map内存中得到对比指纹集合,采用整数异或运算方法,分别计算目标指纹与对比指纹集合中各指纹之间的相似度,并记录各个相似度二进制数值中1的个数;
S6、当相似度二进制数值中1的个数小于或等于预设值时,则判断该相似度对应map内存中的对比指纹与目标指纹相似,通过查询map内存中该对比指纹相应的文本id,即完成目标文本的查重;
其中,所述步骤S1具体包括以下步骤:
S11、获取原始文本数据集;
S12、对数据集中每一段语句进行分词,得到每一段语句对应的特征向量;
S13、通过hash函数计算每一段语句对应特征向量的hash值;
S14、给每一段语句的各特征向量进行加权;
S15、将每一段语句的各特征向量加权结果累加,得到该段语句对应的序列串;
S16、对每一段语句对应序列串进行位移计算,得到每一段语句对应的指纹,其中,一个指纹由4个指纹整数值表示;
S17、将所有语句对应的指纹依次排列组合,得到原始文本数据集对应的指纹集合;
所述步骤S2具体是将指纹集合中各指纹及对应的文本id分别转换成字节数据,组合之后一同存入指纹库,其中,每一个指纹及对应的文本id转换后的字节数据中一共包含20个字节,20个字节中第一段4字节数据至第四段4字节数据分别对应于指纹的四个指纹整数值,第五段4字节数据对应于文本id整数值;
所述步骤S4具体包括以下步骤:
S41、从指纹库读取各字节数据;
S42、将读取的各字节数据转换成整数,一个字节数据转换后的整数包括第1~第4个指纹整数值及第5个文本id整数值;
S43、将字节数据转换成的整数对应存入5个map格式中,其中,前4个map依次存入:第1个指纹整数值及文本id整数值、第2个指纹整数值及文本id整数值、第3个指纹整数值及文本id整数值、第4个指纹整数值及文本id整数值,最后一个map作为索引map,存入的是文本id整数值及4个指纹整数值组成的完整指纹。
2.根据权利要求1所述的一种大规模文本相似度计算及文本查重方法,其特征在于,所述步骤S16中位移计算的具体过程为:按照每16位进行一次位移运算,如果大于等于0,则向右位移一位加1,如果小于0,则向右位移一位不加1,如此即可得到该段语句对应的指纹。
3.根据权利要求1所述的一种大规模文本相似度计算及文本查重方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、根据目标指纹的4个指纹整数值,依次分别从第1~第4个map中寻找相同的指纹整数值,若该map中存在相同的指纹整数值,则从该map中提取该相同指纹整数值对应的文本id整数值,若该map中不存在相同的指纹整数值,则返回空值;
S52、将提取的文本id整数值进行组合,得到文本id集合;
S53、对文本id集合进行去重处理,即删除文本id集合中重复的文本id整数值,得到去重后的文本id集合,去重后的文本id集合中包含不同的文本id整数值;
S54、根据不同的文本id整数值的排序,从第5个map中提取与文本id集合中文本id整数值对应的指纹,得到对比指纹集合;
S55、采用整数异或运算方法,分别计算目标指纹与对比指纹集合中各指纹之间的相似度,并记录各个相似度二进制数值中1的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱数信息技术股份有限公司,未经上海爱数信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010132181.9/1.html,转载请声明来源钻瓜专利网。





