[发明专利]一种句子信息指纹表示方法、句子查重方法及系统在审

专利信息
申请号: 202110886467.0 申请日: 2021-08-03
公开(公告)号: CN113642314A 公开(公告)日: 2021-11-12
发明(设计)人: 祁智恒 申请(专利权)人: 路米科技(江苏)有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F40/284;G06F16/215
代理公司: 成都鱼爪智云知识产权代理有限公司 51308 代理人: 谷科均
地址: 213000 江苏省常州市天*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 句子 信息 指纹 表示 方法 系统
【权利要求书】:

1.一种句子信息指纹表示方法,其特征在于,包括以下步骤:

获取待测句子信息;

计算待测句子信息中的字数;

根据字数在预置的字数表中进行匹配,得到字数对应的截取数量;

根据截取数量按顺序提取待测句子信息中对应截取数量的字;

将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息;

将各个字对应的编码信息按照预设的参数进行求余,生成各个编码的余数;

将各个编码余数按照顺序进行排序,生成句子的信息指纹。

2.根据权利要求1所述的句子信息指纹表示方法,其特征在于,所述将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息的步骤包括以下步骤:

A1:判断待测句子信息中对应数量的字是否为英文单词,若是,则执行步骤A2;若否,则执行步骤A4;

A2:将字中的各个字母分别进行UTF-8编码,生成各个字母对应的编码信息;

A3:将各个字母对应的编码信息进行求和计算,生成总的编码信息作为该字对应的编码信息;

A4:将待测句子信息中对应数量的字分别进行UTF-8编码,生成各个字对应的编码信息。

3.一种句子查重方法,其特征在于,包括以下步骤:

获取多条句子;

将各个句子按照如权利要求1-2中任意一项的句子信息指纹表示方法进行信息指纹表示,生成各个句子的信息指纹;

将各个句子的信息指纹分别进行哈希散列,生成各个句子的散列值;

将各个句子的散列值分别进行对比,生成对比结果;

根据对比结果对多条句子进行筛选,得到重复句子。

4.根据权利要求3所述的句子查重方法,其特征在于,还包括以下步骤:

将各个句子的信息指纹分别按照第一哈希值进行哈希散列,生成各个句子的散列值;

将各个句子的散列值分别进行对比,生成第一对比结果;

根据第一对比结果对多条句子进行筛选,得到待选重复句子;

将待选重复句子的信息指纹分别按照第二哈希值进行哈希散列,生成各个待选重复句子的散列值;

将各个待选重复句子的散列值分别进行对比,生成第二对比结果;

根据第二对比结果对待选重复句子进行筛选,得到重复句子。

5.根据权利要求3所述的句子查重方法,其特征在于,所述将各个句子的散列值分别进行对比,生成对比结果的步骤包括以下步骤:

将各个句子的散列值中各个字的散列值分别进行对比,得到各个字的散列值的对比结果;

根据各个字的散列值的对比结果统计出对比结果为相同的字的散列值的个数;

将所述个数与预置的个数阀值进行对比,得到对比结果。

6.一种句子信息指纹表示系统,其特征在于,包括:

信息获取模块,用于获取待测句子信息;

字数计算模块,用于计算待测句子信息中的字数;

匹配模块,用于根据字数在预置的字数表中进行匹配,得到字数对应的截取数量;

字截取模块,用于根据截取数量按顺序提取待测句子信息中对应截取数量的字;

编码模块,用于将提取的待测句子信息中对应截取数量的字分别进行UTF-8编码,生成各个字对应的编码信息;

求余计算模块,用于将各个字对应的编码信息按照预设的参数进行求余,生成各个编码的余数;

信息指纹生成模块,用于将各个编码余数按照顺序进行排序,生成句子的信息指纹。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于路米科技(江苏)有限公司,未经路米科技(江苏)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110886467.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top