[发明专利]基于语义的文档查重方法及装置在审
| 申请号: | 202210182346.2 | 申请日: | 2022-02-25 |
| 公开(公告)号: | CN114564935A | 公开(公告)日: | 2022-05-31 |
| 发明(设计)人: | 李靖;郑邦东;林明;单晟 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
| 代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 郝博;沈珍珠 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语义 文档 方法 装置 | ||
本发明公开了一种基于语义的文档查重方法及装置,可应用于人工智能技术领域,该方法包括:生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;对语义向量集进行向量量化,获得压缩后的向量集;基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;从多组句子对中,筛选出相似句子对。本发明可以实现对文档进行查重,效率高。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语义的文档查重方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
电子类媒体在攥写文档的时候,或者某些文档需要查询是否重复等功能的时候,需要从海量历史文档中找出主题,特别是语义相关的文档,然后对找出的文档和待检查文档进行比对,以实现查重,因此,目前需要一种高效率的文档查重方法。
发明内容
本发明实施例提供一种基于语义的文档查重方法,用以实现对对文档进行查重,效率高,该方法包括:
生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;
对语义向量集进行向量量化,获得压缩后的向量集;
基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;
对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;
对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;
从多组句子对中,筛选出相似句子对。
本发明实施例还提供一种基于语义的文档查重装置,用以实现对文档进行查重,效率高,该装置包括:
语义向量集生成模块,用于生成文档集的语义向量集,所述文档集包括待查重文档和多个历史文档;
向量量化模块,用于对语义向量集进行向量量化,获得压缩后的向量集;
相似文档确定模块,用于基于压缩后的向量集,检索出与待查重文档距离最近的历史文档,将所述与待查重文档距离最近的历史文档,确定为相似文档;
句子分割模块,用于对待查重文档句子分割,获得第一句子集合,对相似文档进行句子分割,获得第二句子集合;
句子对获得模块,用于对第一句子集合和第二句子集合中的句子进行两两组合,获得多组句子对;
相似句子对筛选模块,用于从多组句子对中,筛选出相似句子对。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语义的文档查重方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语义的文档查重方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述基于语义的文档查重方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210182346.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:目标对象文本段落划分方法
- 下一篇:一种动力总成冷却系统、冷却控制方法及汽车





