[发明专利]一种基于递归神经网络的图像文字序列识别系统在审

申请号：	201511025812.2	申请日：	2015-12-30
公开（公告）号：	CN105654135A	公开（公告）日：	2016-06-08
发明（设计）人：	刘世林;何宏靖;陈炳章;吴雨浓;姚佳	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高新区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于递归神经网络图像文字序列识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像文字识别领域，特别涉及一种基于递归神经网络的图像文字序列识别系统。

背景技术

随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(OCR)，光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度，字体规范度等)、内容布局(文字的排列情况，比普通文本与表格文本和票据)的差异，OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异，比如票据的识别，对准确率的要求是非常高的，因为如果一个数字识别错误就可能导致致命的后果，传统的OCR识别不能满足这样高精度的识别要求。

常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取；这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，该方法主要存在两大问题：一、单字符图片的切分困难，特别是字符串中混合了左右偏旁的汉字、字母、数字、符号，字符具有倾斜、扭曲、粘合，或者图像具有背景噪音等情况下，切分更加困难。而一旦切分出现了问题，就很难得到准确的识别结果。二、将字符串切分成包含单个字符的子图片进行识别的分别识别方法，没有充分利用自然语言中字、词之间的依赖关系，虽然可以使用额外的语言模型对识别结果进行优化补充，但是考虑到语言模型和识别器的构建过程是相互独立的，这种方式的优化补充是局部有限的。

面对巨大的识别需要急需一种能够快速高效的图像文字识别工具。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于递归神经网络的图像文字序列识别系统。包含卷积神经网络(CNN)和递归神经网络分类器分类(RNN)，通过CNN对包含多个字符的整个图片进行特征提取，然后将同样的特征送入RNN进行递归重复使用，以实现连续预测多个字符的目的。本发明系统实现的图像文字序列识别，系统的克服了OCR识别前先要进行图片切分的弊端，极大的提高了图像文字的识别效率，同时在进行模型训练过程中，各个时刻递归神经网络分类器的输入信息包含上一时刻的输出数据和识别结果，递归神经网络分类器的输出在依赖当前信息的同时也依赖了文字序列的先前识别结果，在识别当前字或者词的基础上，将字、词之间依赖关系的语言模型也一并学习得到了，不再需要构建额外的语言模型来对识别的结果进行优化，在提升字、词序列的识别准确率的同时进一步提高了图像文字的识别效率。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于递归神经网络的图像文字序列识别系统，包含图像文字输入模块、特征提取模块以及递归神经网络分类器，其中所述图像文字输入模块将待识别图像文字序列输入到所述特征提取模块中；所述特征提取模块将整个待识别图像文字序列的特征数据提取出来，输入到所述递归神经网络分类器中；所述递归神经网络分类器根据样本特征数据，上一时刻递归神经网络分类器的输出数据以及上一时刻递归神经网络分类器识别出的字词转化成的向量数据，依次输出待识别图像文字序列的识别结果。

进一步的，所述特征提取模块为卷积神经网络。本发明系统中所使用的递归神经网络分类器的向前算法计算公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司，未经成都数联铭品科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201511025812.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于递归神经网络的图像文字序列识别系统在审

专利文献下载