[发明专利]一种句子信息指纹表示方法、句子查重方法及系统在审
申请号: | 202110886467.0 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113642314A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 祁智恒 | 申请(专利权)人: | 路米科技(江苏)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/284;G06F16/215 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 谷科均 |
地址: | 213000 江苏省常州市天*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 句子 信息 指纹 表示 方法 系统 | ||
1.一种句子信息指纹表示方法,其特征在于,包括以下步骤:
获取待测句子信息;
计算待测句子信息中的字数;
根据字数在预置的字数表中进行匹配,得到字数对应的截取数量;
根据截取数量按顺序提取待测句子信息中对应截取数量的字;
将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息;
将各个字对应的编码信息按照预设的参数进行求余,生成各个编码的余数;
将各个编码余数按照顺序进行排序,生成句子的信息指纹。
2.根据权利要求1所述的句子信息指纹表示方法,其特征在于,所述将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息的步骤包括以下步骤:
A1:判断待测句子信息中对应数量的字是否为英文单词,若是,则执行步骤A2;若否,则执行步骤A4;
A2:将字中的各个字母分别进行UTF-8编码,生成各个字母对应的编码信息;
A3:将各个字母对应的编码信息进行求和计算,生成总的编码信息作为该字对应的编码信息;
A4:将待测句子信息中对应数量的字分别进行UTF-8编码,生成各个字对应的编码信息。
3.一种句子查重方法,其特征在于,包括以下步骤:
获取多条句子;
将各个句子按照如权利要求1-2中任意一项的句子信息指纹表示方法进行信息指纹表示,生成各个句子的信息指纹;
将各个句子的信息指纹分别进行哈希散列,生成各个句子的散列值;
将各个句子的散列值分别进行对比,生成对比结果;
根据对比结果对多条句子进行筛选,得到重复句子。
4.根据权利要求3所述的句子查重方法,其特征在于,还包括以下步骤:
将各个句子的信息指纹分别按照第一哈希值进行哈希散列,生成各个句子的散列值;
将各个句子的散列值分别进行对比,生成第一对比结果;
根据第一对比结果对多条句子进行筛选,得到待选重复句子;
将待选重复句子的信息指纹分别按照第二哈希值进行哈希散列,生成各个待选重复句子的散列值;
将各个待选重复句子的散列值分别进行对比,生成第二对比结果;
根据第二对比结果对待选重复句子进行筛选,得到重复句子。
5.根据权利要求3所述的句子查重方法,其特征在于,所述将各个句子的散列值分别进行对比,生成对比结果的步骤包括以下步骤:
将各个句子的散列值中各个字的散列值分别进行对比,得到各个字的散列值的对比结果;
根据各个字的散列值的对比结果统计出对比结果为相同的字的散列值的个数;
将所述个数与预置的个数阀值进行对比,得到对比结果。
6.一种句子信息指纹表示系统,其特征在于,包括:
信息获取模块,用于获取待测句子信息;
字数计算模块,用于计算待测句子信息中的字数;
匹配模块,用于根据字数在预置的字数表中进行匹配,得到字数对应的截取数量;
字截取模块,用于根据截取数量按顺序提取待测句子信息中对应截取数量的字;
编码模块,用于将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息;
求余计算模块,用于将各个字对应的编码信息按照预设的参数进行求余,生成各个编码的余数;
信息指纹生成模块,用于将各个编码余数按照顺序进行排序,生成句子的信息指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于路米科技(江苏)有限公司,未经路米科技(江苏)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886467.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置