[发明专利]基于多维关联时序分类神经网络的端到端多序列文本识别方法有效
申请号: | 201911321107.5 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111144469B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 周水庚;许振龙;程战战;白帆 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06F18/214;G06F18/241;G06V30/40;G06V10/82;G06N3/0464 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 关联 时序 分类 神经网络 端到端多 序列 文本 识别 方法 | ||
本发明属于人工智能技术领域,具体为一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。本发明设计了编码器、多维关联时序分类神经网络和解码器;对含有多个文本序列的图片进行编码解码,编码器将原始的图片映射到特征空间,多维关联时序分类神经网在特征空间上捕获图片的空间时序信息,并利用该信息对各个位置进行文本识别,解码器则根据分类得到的最大概率类别图进行解码生成多序列文本。本发明方法框架简单、使用方便、可扩展性强、可解释性强。本发明设计了多个数据集和实用场景并在其上进行了实验,能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务,提供基础框架和算法的支持。
技术领域
本发明属于人工智能技术领域,具体涉及基于多维关联时序分类神经网络的端到端多序列文本识别方法。
背景技术
从初始的光学字符识别问题到如今的图像文本识别问题,文本识别在模式识别与计算机视觉领域一直是重要的研究课题。其应用非常广泛,如手写字识别、身份证识别、图像理解等。尽管文本识别问题在技术上取得了重大进展,但考虑到各种复杂的应用场景,这一问题远未得到很好的解决。
现有的图像文本识别主要采用文本检测模块和文本识别模块组成的流水线方式。前者用于检测图像中的文本部分(如字符、单词或文本序列),后者负责识别裁剪后的文本图像。从技术上讲,我们可以将这些工作归类为非端到端(NEE)方法。对于包含多个文本序列的图像,这些方法必须首先检测多个序列,裁剪后逐个进行识别。
随着深度学习的普及,越来越多的人尝试以“端到端”的方式识别文本,首先对检测模块和识别模块分别进行预训练,然后对检测和识别模块进行联合训练。与早期的NEE方法不同,它们将检测模块和识别模块集成到一个统一的网络中,但仍然使用文本和位置标注(如检测框)训练整个模型。我们称之为准端到端(QEE)方法。
后续提出了一种基于注意力机制的纯端到端(PEE)文本识别方法。我们称之为PEE方法,因为训练图像只标注文本内容,不需要位置信息。然而,这种方法只能从图像中识别出一个文本序列。虽然目标文本序列可以在图像中分成若干行,但它们将所有文本行作为一个整体的序列来处理,并且构成序列的文本行的顺序必须预先定义。本质上,该方法只能处理单序列识别问题。
本发明试图解决一个新的且更具挑战性的问题:通过纯端到端学习从图像中识别多个文本序列。这个问题难点有两个方面:(1)多文本序列识别。每个图像可能包含多个不同布局的独立文本序列,我们尝试识别所有文本序列。所以这是一个多序列识别问题。图1为多序列识别问题的若干样例。(2)纯端到端(PEE)学习。每个训练图像都只有文本注释。我们的目标是用PEE方法解决MSR问题。现有的NEE和QEE方法无法处理我们的问题,因为它们不是PEE方法。此外,针对单序列识别(SSR)问题的方法同样不能直接应用于我们的问题。所以我们必须探索新的方法。
发明内容
针对以上现有技术中的问题,本发明的目的在于提出一种解决多序列识别问题的纯端到端方法。
本发明提出的解决多序列识别问题的纯端到端方法,是一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。所谓多序列文本识别问题的描述如下:有且仅有含有多个文本序列的图片,需要输出所有的文本序列。
本发明方法,受关联时序分类技术中一维概率路径概念的启发,可以在给定的多维概率空间中寻找最优概率路径,路径搜索就是寻找潜在目标序列的过程。另外,本发明方法使用无序和独立的文本标注进行训练,这意味着在训练期间可以接受任何顺序的序列级标注。本发明的算法,更进一步的优化了关联时序分类技术中的缺陷与不足。通过多维时序信息多角度的利用序列上下文信息对当前时序点进行预测。图2展示了本发明的概率路径搜索方式与时序点预测过程。
本发明提出的基于多维关联时序分类神经网络的端到端多序列文本识别方法,首先要构建一个编码器,一个多维关联时序分类神经网络,一个解码器;其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321107.5/2.html,转载请声明来源钻瓜专利网。