[发明专利]字符识别方法、装置、电子设备和存储介质有效
| 申请号: | 202110878449.8 | 申请日: | 2021-08-02 |
| 公开(公告)号: | CN113344145B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 孟鹏飞;朱磊;贾双成;潘冰;李成军 | 申请(专利权)人: | 智道网联科技(北京)有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
| 地址: | 100029 北京市东*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符 识别 方法 装置 电子设备 存储 介质 | ||
1.一种字符识别方法,其特征在于,该方法包括:
获取包含待识别字符的图像;
将所述包含待识别字符的图像输入预设字符识别模型,得到字符识别结果;其中,所述预设字符识别模型依次包括:卷积神经网络CNN、循环神经网络RNN以及转录网络CTC,所述CNN的输出与所述RNN的输出之间设有短路连接,所述短路连接用于根据所述CNN的输出与所述RNN的输出得到中间输出结果;所述CTC用于对所述中间输出结果进行处理,输出所述字符识别结果,所述RNN用于对所述CNN的输出结果进行处理,得到第一RNN输出结果;
所述短路连接,用于对所述CNN的输出结果和所述第一RNN输出结果进行第二指定运算,得到中间运算结果;
所述RNN还用于对所述中间运算结果进行处理,得到第二RNN输出结果;
所述短路连接,还用于对所述CNN的输出结果、所述中间运算结果和所述第二RNN输出结果进行第三指定运算,得到中间输出结果;
所述RNN采用递归残差的共享参数的双向长短期记忆循环神经网络BiLSTM。
2.如权利要求1所述的方法,其特征在于,所述CNN具有多感受野结构,所述CNN用于根据所述多感受野结构,对所述包含待识别字符的图像进行字符特征提取,从而能够适应不同字形的字符。
3.如权利要求2所述的方法,其特征在于,所述多感受野结构基于平行多池化层实现,平行多池化层中的各池化层不同;
所述平行多池化层用于接收CNN中前一层的输出,相应地得到各池化层的输出结果,对各输出结果进行第一指定运算,得到第一运算结果作为所述CNN中下一层的输入。
4.如权利要求3所述的方法,其特征在于,所述平行多池化层有多组,其中,
所述CNN中第一卷积层之后以及第二卷积层之后的两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1×2的池化核和2×2的池化核;
所述CNN的最后两组平行多池化层中,每组平行多池化层中的最大池化层分别使用1×2的池化核和3×2的池化核。
5.如权利要求1所述的方法,其特征在于,所述CNN的第三个卷积层与第四个卷积层之间设置有批标准化层,所述批标准化层用于对所述第三个卷积层的卷积结果进行批标准化处理后,将批标准化结果输入到所述第四个卷积层。
6.如权利要求1所述的方法,其特征在于,所述RNN具体为长短期记忆循环神经网络LSTM,
所述LSTM,用于将所述CNN的输出结果或所述中间运算结果作为输入量,根据所述输入量依次计算遗忘门信息、记忆门信息、细胞状态、输出门信息,最终得到隐藏层信息作为与所述输入量对应的输出结果。
7.如权利要求6所述的方法,其特征在于,所述LSTM具体为双向长短期记忆循环神经网络BiLSTM,
所述BiLSTM,用于将自身的正向网络得到的隐藏层信息,与自身的负向网络得到的隐藏层信息进行拼接,作为与所述输入量对应的输出结果。
8.一种字符识别装置,其特征在于,所述字符识别装置用于实现权利要求1~7之任一所述字符识别方法。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7之任一所述字符识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7之任一所述字符识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智道网联科技(北京)有限公司,未经智道网联科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110878449.8/1.html,转载请声明来源钻瓜专利网。





