[发明专利]一种文字识别的方法、装置及电子设备有效
| 申请号: | 201810691282.2 | 申请日: | 2018-06-28 |
| 公开(公告)号: | CN110659641B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 程战战;钮毅;罗兵华 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 310051 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文字 识别 方法 装置 电子设备 | ||
1.一种文字识别的方法,其特征在于,包括:
从目标文字图片中提取特征图,包括:将目标文字图片输入到预设的卷积神经网络,以由该卷积神经网络对目标文字图片进行卷积计算后,输出特征图;
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出图片序列,所述图片序列指示所述目标文字图片中的文字信息;
其中,所述时空注意力模型通过如下步骤训练得到:
搭建基于神经网络的时空注意力模型;其中,所述神经网络包括卷积神经网络和循环神经网络;
获取训练样本,所述训练样本包括文字图片的时空特征序列和指示所述文字图片包含的文字信息的图片序列;
将所述时空特征序列输入所述神经网络,以由所述神经网络输出图片序列,根据所述神经网络输出的图片序列和所述训练样本中的图片序列之间的差异,对所述神经网络的网络参数进行训练。
2.根据权利要求1所述的方法,其特征在于,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述方法还包括:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息,包括:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
4.根据权利要求3所述的方法,其特征在于,所述计算获得所述时空特征序列的权值因子,包括:
基于前一时刻所述时空注意力模型的状态单元的隐变量和所述时空特征序列,计算所述时空特征序列确定当前时刻的时空语义编码时所述时空特征序列中各时空特征对应的权值因子;其中,各时空特征对应的权值因子与该时空特征的维度相同。
5.根据权利要求3所述的方法,其特征在于,所述基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码,包括:
将所述时空特征序列中各时空特征与该时空特征对应的权值因子相乘,并累加各乘积,得到所述时空语义编码。
6.根据权利要求1所述的方法,其特征在于,所述时空注意力模型的神经网络不包含全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810691282.2/1.html,转载请声明来源钻瓜专利网。





