[发明专利]一种基于时空卷积神经网络的图像字符识别方法有效
申请号: | 201911019366.2 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110837830B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 郑莹斌;杜响成;叶浩 | 申请(专利权)人: | 上海兑观信息科技技术有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 韦志刚 |
地址: | 201203 上海市浦东新区中国(上海)自由贸易试*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 卷积 神经网络 图像 字符 识别 方法 | ||
本发明提供了一种基于时空卷积神经网络的图像字符识别方法,首先对输入的图像进行预处理;然后利用卷积神经网络提取输入图像的特征;接着对提取的特征进行序列建模;最后根据提取的特征序列进行最后结果的预测。本发明提供一种基于时空卷积神经网络的图像字符识别方法,直接提取图像文本中的文本信息,减少手工文字输入的频率,节约手工录入信息的时间,减少了工作量,提高了工作效率。
技术领域
本发明涉及图像识别技术领域,具体地讲,本发明涉及一种基于时空卷积神经网络的图像字符识别方法。
背景技术
图像文本识别,是指利用人工智能领域的方法及技术,对文本图像进行处理,识别提取图像文本中的字符。图像文本识别能够自动提取图像上的文本信息,有助于快速理解图像中语义信息并且能够帮助解决许多实际问题。例如:发票的识别及录入,历史档案的电子化归档与检索等。
现阶段,图像文本识别的网络架构为:卷积神经网络提取图像特征,循环神经网络对特征序列进行建模。其中,现阶段的方法采用的卷积神经网络为VGG、ResNet等,时间序列建模采用循环神经网络:GRU、BiLSTM等。最后根据序列特征进行预测。
目前,图像文本识别准确率极大程度上依赖于特征提取器及时间序列建模。其中,现阶段方法采用的图像特征提取算法还有准确率提升的空间,对于时间序列的建模方法对字符的长度有一定的要求,同时建模效率和模型推断时间也较低。
因此,本领域技术人员亟需提供一种基于时空卷积神经网络的图像字符识别方法,直接提取图像文本中的文本信息,减少手工文字输入的频率,节约手工录入信息的时间,减少了工作量,提高了工作效率。
发明内容
本发明要解决的技术问题是:提供一种基于时空卷积神经网络的图像字符识别方法,其特征在于,包括以下步骤:
步骤S01、对输入的图像进行预处理;
步骤S02、利用时空卷积神经网络提取输入图像的特征;
步骤S03、对提取的特征进行序列建模;
步骤S04、根据提取的特征序列进行最后结果的预测。
优选的,所述步骤01中,对输入的图像进行预处理包括对模糊的图像进行去模糊处理以及对倾斜扭曲的图像进行转正处理。
优选的,所述步骤01中,对输入的图像进行预处理过程中以n张图像为单位进行训练,将图像尺寸归一化。
优选的,将图像尺寸归一化具体包括:将图像以高度为32个像素进行等比缩放,同时以n张图像中宽度最大的图像为基准,将其它宽度不足最大宽度的图像进行像素值为0的填充。
优选的,所述步骤02中,首先通过卷积层、非线性层和下采样层抽象出图像的全局特征,其定义如下:
F:In→Out,In∈RH′×W′×C′,Out∈RH×W×C
其中,In为网络的输入,图像或者特征图,Out是网络的输出特征图,W′、H′和C′分别为输入特征图的长、宽和通道数;W、H和C分别为输出特征图的长、宽和通道数。
优选的,所述步骤02中,然后采用通道权重学习机制来捕获通道特征之间的依赖关系,权重因子学习过程如下:
a.对通道特征F沿着通道维度进行全局平均池化操作,数学表达式如下所示:
其中,gc是由c个特征图的数值分布构成的向量,AvgPool代表全局池化操作,out代表网络输出的特征图,H、W代表特征图的宽与长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海兑观信息科技技术有限公司,未经上海兑观信息科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911019366.2/2.html,转载请声明来源钻瓜专利网。