[发明专利]基于语义的文档查重方法及装置在审
| 申请号: | 202210182346.2 | 申请日: | 2022-02-25 |
| 公开(公告)号: | CN114564935A | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 李靖;郑邦东;林明;单晟 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 郝博;沈珍珠 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 文档 方法 装置 | ||
1.一种基于语义的文档查重方法,其特征在于,包括:
生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;
对语义向量集进行向量量化,获得压缩后的向量集;
基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;
对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;
对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;
从多组句子对中,筛选出相似句子对。
2.如权利要求1所述的方法,其特征在于,生成文档集的语义向量集,包括:
对文档集中的每个文档,将该文档输入至语义训练模型中,获得语义的二维矩阵,所述二维矩阵的第一维为句子的长度信息,第二维为语义信息的向量;
沿着二维矩阵的第一维,将第二维的向量相加后取均值,获得该文档的语义向量,将该文档的语义向量添加至语义向量集中。
3.如权利要求2所述的方法,其特征在于,在沿着二维矩阵的第一维,将第二维的向量相加后取均值,还包括:
在二维矩阵的第一维中句子的长度大于预设长度时,对超过预设长度的部分进行截断;
在二维矩阵的第一维中句子的长度小于预设长度时,采用预设符号对第一维进行补足。
4.如权利要求1所述的方法,其特征在于,对语义向量集进行向量量化,获得压缩后的向量集,包括:
对语义向量集的向量维度进行切分,获得多组语义子向量,每组语义子向量中语义子向量个数为语义向量集中语义向量的个数,语义子向量的维度小于语义向量的维度;
对每组语义子向量进行聚类,获得每组语义子向量对应的多个类中心,其中,每组语义子向量对应的多个类中心的个数小于语义子向量个数;
对每组语义子向量中每个语义子向量,查找该组语义子向量对应的多个类中心中与该语义子向量距离最近的类中心,标记为该语义子向量的标签;
其中,所有语义子向量的标签构成压缩后的向量集。
5.如权利要求4所述的方法,其特征在于,采用K-means聚类方法对每个语义向量子集进行聚类。
6.如权利要求4所述的方法,其特征在于,基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,包括:
构建多个距离表,其中,每个距离表对应一组语义子向量,每个距离表以每组语义子向量对应的多个类中心的任意两个类中心的标签为索引值,以所述任意两个类中心的距离为距离值进行存储;
对待查重文档的每个语义子向量,基于该语义子向量的标签,从该语义子向量所在组对应的距离表中,查询该语义子向量与每个历史文档的语义子向量之间的距离值;对获得的多个距离值进行加和计算,获得与每个历史文档的距离加和值;
确定距离加和值最小的历史文档为与待查重文档距离最近的历史文档。
7.如权利要求1所述的方法,其特征在于,从多组句子对中,筛选出相似句子对,包括:
计算每组句子对之间的编辑距离,在所述编辑距离小于预设阈值时,确定该句子对为相似句子对。
8.如权利要求7所述的方法,其特征在于,采用如下公式,计算每组句子对之间的编辑距离:
其中,leva,b(i,j)为句子ai和句子bj之间的编辑距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210182346.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:目标对象文本段落划分方法
- 下一篇:一种动力总成冷却系统、冷却控制方法及汽车





