[发明专利]一种基于文本图片检索的相似文本检测方法有效

专利信息
申请号: 201710598424.6 申请日: 2017-07-21
公开(公告)号: CN107330127B 公开(公告)日: 2020-06-05
发明(设计)人: 谭貌;原思平;金继成;苏永新 申请(专利权)人: 湘潭大学
主分类号: G06F16/13 分类号: G06F16/13;G06F16/583;G06F16/53;G06N3/04;G06N3/08
代理公司: 湘潭市汇智专利事务所(普通合伙) 43108 代理人: 颜昌伟
地址: 411105 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 图片 检索 相似 检测 方法
【说明书】:

发明公开了一种基于文本图片检索的相似文本检测方法,包括以下步骤:建立文档库;建立文本图片库;文本图片库中图片的特征提取和降维;将检索文档分割为检索图片集;检索图片集中图片的特征提取和降维;检索图片集的余弦相似性度量;检索结果的全文相似度过滤;检索结果输出。本发明集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。

技术领域

本发明涉及一种基于文本图片检索的相似文本检测方法。

背景技术

随着数字媒体技术的蓬勃发展,包括文本图像在内的多媒体资源规模越来越大。文本检索逐渐成为自然语言处理领域中的一个研究热点,产生了许多基于光学字符识别(OCR)技术的文本检索方法,该方法从图像中识别文本内容,然后利用文本检索技术实现文本图像检索系统。但是,传统的文本图像检索系统,需要依赖基于OCR的复杂模型,才能达到较好的文本识别和文本相似性检测效果。另外,对包含任意多个字符的无约束文本图像直接进行推荐和检索,同时适应于不同语言符号,需要一种相似性检索方法来学习和识别图像中的深度视觉特征。

文本内容的视觉呈现方式大致相同,在文本识别和检索的早期研究中,特征提取需要经过版面分析、行切分、单字切分、单字识别等过程,而在近几年,基于深度学习的特征提取技术已经成为一个重要的研究方向。各种深度学习模型中,卷积神经网络是图像处理任务中最强大的网络模型,使图像可以直接作为网络的输入,避免了传统识别方法中复杂的特征提取与数据重建过程。

相似性度量是确定检索系统有效性的另一关键技术。根据不同的属性度量图像内容的相似性有多种方法。在大多数的图像检索系统中,为找出检索图像的原始或类似的图像,常用余弦相似度度量方法,因为其准确性高而被确认为一种标准度量系统。此外,更有效和广泛的方法是基于图像高层的视觉特征,来计算成对图像的余弦相似性。然而在实际中,如果仅仅只计算文本图像之间的余弦相似性,来提高其相似性检索精度通常比较困难,比如不同的文本图像之间可能具有相似的视觉特征,但具有不同的高层主题特征的情况。

发明内容

为了解决上述技术问题,本发明提供一种操作简单、检测精度高的基于文本图片检索的相似文本检测方法。

本发明解决上述问题的技术方案是:一种基于文本图片检索的相似文本检测方法,包括以下步骤:

步骤一:建立文档库;收集文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;

步骤二:建立文本图片库;将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号生成“图片名称-文档编号”索引,然后对文本图片库中每张文本图片进行等比例缩放、灰度转换预处理,转换为文本行高一致的灰度文本图片;

步骤三:文本图片库中图片的特征提取和降维;基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维;

步骤四:将检索文档分割为检索图片集;输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集,然后对检索图片集中每张文本图片进行等比例缩放、灰度转换预处理;

步骤五:检索图片集中图片的特征提取和降维;用多层卷积神经网络模型提取检索图片集中每张图片的特征向量,构建检索图片集对应的特征矩阵,并采用PCA方法压缩到与文本图片库特征矩阵相同的特征点维度;

步骤六:检索图片集的余弦相似性度量;对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710598424.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top