[发明专利]文档图像的识别方法和系统有效
| 申请号: | 201810031847.4 | 申请日: | 2018-01-12 |
| 公开(公告)号: | CN108154191B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 冷大炜 | 申请(专利权)人: | 北京经舆典网络科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 北京元合联合知识产权代理事务所(特殊普通合伙) 11653 | 代理人: | 李非非 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 图像 识别 方法 系统 | ||
本发明提供了一种文档图像的识别方法,该方法包括:输入待识别文档图像;第一神经网络获得所述待识别文档图像的静态特征;变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号;第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;根据所述动态特征输出所述待识别文档图像的识别结果。相应地,本发明还提供了一种文档图像的识别系统。实施本发明可以提升文档图像识别的准确率和效率。
技术领域
本发明涉及深度学习和神经网络技术,尤其涉及一种文档图像的识别方法和系统。
背景技术
随着办公自动化技术的发展,在越来越多的场景中人们期望纸质文档转化为便于处理的电子图像,以利于进行数据传输、分发、存档和查看。
由于各种业务的复杂性,其相适配的纸质文档也不相同,贮存纸质文档时,人们可以通过人工分装的形式对其进行归类方便查阅。现有技术中生成纸质文档的电子图像的最常见方式是对纸质文档进行扫描而生成。而当纸质文档被转化为文档图像后,如何对各种无特殊标记的文档图像进行自动化分类、归档和分发是一个较为困难的问题。若是单纯依靠用户操作计算机设备为其添加分类凭据标识,整个过程耗时较长,尤其是若短时间内要分类大量的文档图像,依靠人工操作的解决方法需要耗费大量的人力。
为了快速实现文档图像的分类,传统方法中提出了依靠自动化的分类模型来处理文档图像分类的构想。传统的文档分类方法中,采用特征提取-根据特征识别-分类的步骤,也即首先建立特征提取模型对文档图像进行特征提取,然后使用分类器根据提取的特征识别文档图像的类别。在设计上述分类模型时,需要针对不同文档图像的特点来设计提取何种类型的特征,而特征提取的方法直接影响分类结果的好坏。因此,该现有技术缺陷在于:第一,特征提取的方法是否有效往往依赖于设计人员的经验和知识积累,没有一种普遍高效的特征提取方法可以适应不同类型的文档图像;第二,面对新的类型的文档图像,需要重新确定特征提取的方法,而重新设计特征的提取方法是耗时耗力的,也即该分类模型不具有机器学习能力,无法应对文档图像识别的扩展需求。
由于存在上述缺陷,现有技术中又提出了采用机器深度学习的方法来构建另一种分类模型,目前这种分类模型常见的结构是采用互相耦合的卷积神经网络(ConvolutionalNeural Network,CNN)和分类器(例如全连接网络)来实现。CNN是一种前馈神经网络,其接受输入不经任何处理的原始文档图像,在使用CNN时避免了显式的特征提取,取代而之的是CNN通过训练数据的训练隐式地提取特征,相比传统的人工设计特征提取方法的分类模型,利用CNN网络进行文档图像分类可以有效提高文档分类的准确性。
尽管准确性得到了提升,CNN+分类器构成的分类网络依然具有缺陷,CNN和分类器均为静态网络,在分类过程中,对文档图像信息的利用是固定不变的,其提取的特征是静态特征。而实际应用中需要处理的文档类型具有多种类型,对不同的文档类型而言,在图像中其有效的鉴别信息的位置并不是固定的,不同的文档图像具有不同的版面上下文结构。而由CNN+分类器网络构成的纯静态网络,无法利用文档图像的不同版面上下文结构而对分类所利用的信息有所侧重,也即静态网络中的特征均是即时性、一次性的,例如承载的内容为不同表格的多个文档图像,其彼此之间的差异仅体现在图像中不同位置的表格结构上,而CNN+分类器构成的静态分类网络不会对此进行关注,因此文档图像中文档的版面上下文结构信息不能得到有效利用,这导致了CNN+分类器构成的静态分类网络对文档图像进行分类时的识别的效率和准确度无法达到期望值。
发明内容
为了克服现有技术中的上述缺陷,本发明提供了一种文档图像的识别方法,该方法包括:
输入待识别文档图像;
第一神经网络获得所述待识别文档图像的静态特征;
变形网络将所述静态特征按照预定的版面结构顺序转换为时序信号;
第二神经网络对所述时序信号进行迭代处理以获得所述待识别文档图像的动态特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京经舆典网络科技有限公司,未经北京经舆典网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810031847.4/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





