[发明专利]一种基于文本图片检索的相似文本检测方法有效
申请号: | 201710598424.6 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107330127B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 谭貌;原思平;金继成;苏永新 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/583;G06F16/53;G06N3/04;G06N3/08 |
代理公司: | 湘潭市汇智专利事务所(普通合伙) 43108 | 代理人: | 颜昌伟 |
地址: | 411105 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图片 检索 相似 检测 方法 | ||
本发明公开了一种基于文本图片检索的相似文本检测方法,包括以下步骤:建立文档库;建立文本图片库;文本图片库中图片的特征提取和降维;将检索文档分割为检索图片集;检索图片集中图片的特征提取和降维;检索图片集的余弦相似性度量;检索结果的全文相似度过滤;检索结果输出。本发明集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。
技术领域
本发明涉及一种基于文本图片检索的相似文本检测方法。
背景技术
随着数字媒体技术的蓬勃发展,包括文本图像在内的多媒体资源规模越来越大。文本检索逐渐成为自然语言处理领域中的一个研究热点,产生了许多基于光学字符识别(OCR)技术的文本检索方法,该方法从图像中识别文本内容,然后利用文本检索技术实现文本图像检索系统。但是,传统的文本图像检索系统,需要依赖基于OCR的复杂模型,才能达到较好的文本识别和文本相似性检测效果。另外,对包含任意多个字符的无约束文本图像直接进行推荐和检索,同时适应于不同语言符号,需要一种相似性检索方法来学习和识别图像中的深度视觉特征。
文本内容的视觉呈现方式大致相同,在文本识别和检索的早期研究中,特征提取需要经过版面分析、行切分、单字切分、单字识别等过程,而在近几年,基于深度学习的特征提取技术已经成为一个重要的研究方向。各种深度学习模型中,卷积神经网络是图像处理任务中最强大的网络模型,使图像可以直接作为网络的输入,避免了传统识别方法中复杂的特征提取与数据重建过程。
相似性度量是确定检索系统有效性的另一关键技术。根据不同的属性度量图像内容的相似性有多种方法。在大多数的图像检索系统中,为找出检索图像的原始或类似的图像,常用余弦相似度度量方法,因为其准确性高而被确认为一种标准度量系统。此外,更有效和广泛的方法是基于图像高层的视觉特征,来计算成对图像的余弦相似性。然而在实际中,如果仅仅只计算文本图像之间的余弦相似性,来提高其相似性检索精度通常比较困难,比如不同的文本图像之间可能具有相似的视觉特征,但具有不同的高层主题特征的情况。
发明内容
为了解决上述技术问题,本发明提供一种操作简单、检测精度高的基于文本图片检索的相似文本检测方法。
本发明解决上述问题的技术方案是:一种基于文本图片检索的相似文本检测方法,包括以下步骤:
步骤一:建立文档库;收集文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;
步骤二:建立文本图片库;将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号生成“图片名称-文档编号”索引,然后对文本图片库中每张文本图片进行等比例缩放、灰度转换预处理,转换为文本行高一致的灰度文本图片;
步骤三:文本图片库中图片的特征提取和降维;基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维;
步骤四:将检索文档分割为检索图片集;输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集,然后对检索图片集中每张文本图片进行等比例缩放、灰度转换预处理;
步骤五:检索图片集中图片的特征提取和降维;用多层卷积神经网络模型提取检索图片集中每张图片的特征向量,构建检索图片集对应的特征矩阵,并采用PCA方法压缩到与文本图片库特征矩阵相同的特征点维度;
步骤六:检索图片集的余弦相似性度量;对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710598424.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于输出信息的方法和装置
- 下一篇:认证异常判断方法及装置