[发明专利]一种文字识别的方法、装置及电子设备有效
| 申请号: | 201810691282.2 | 申请日: | 2018-06-28 |
| 公开(公告)号: | CN110659641B | 公开(公告)日: | 2023-05-26 |
| 发明(设计)人: | 程战战;钮毅;罗兵华 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 310051 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文字 识别 方法 装置 电子设备 | ||
本申请提供一种文字识别的方法、装置及电子设备,所述方法包括:从目标文字图片中提取特征图;对所述特征图进行滑窗处理,得到时空特征序列;将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。本申请技术方案,可以基于目标文字图片的两个维度的信息识别目标文字图片包含的文字信息,有效提高了识别率。
技术领域
本申请涉及图像处理领域,特别涉及一种文字识别的方法、装置及电子设备。
背景技术
在自然场景下,文字识别的识别率会因为受到自然场景的复杂性影响而下降。比如,场景中与文字相似的纹理会对文字识别造成干扰,导致识别错误。随着深度学习技术发展迅速,注意力模型(Attention Model)被应用于文字识别后,改进了自然场景下的文字识别效果。
在相关技术中,通过卷积神经网络(Convolutional Neural Network)对文字图片(该文字图片可以是监控指定场景而获得的视频帧)提取时间特征序列,然后利用时序注意力模型对上述时间特征序列解码,从而识别出文字图片中的文字。
然后,相关技术在对文字图片提取时间特征序列的过程中,丢失了部分文字图片的特征信息,使得后续识别文字的识别结果仍然不够理想。
发明内容
有鉴于此,本申请提供一种文字识别的方法、装置及电子设备,用以充分提取文字图片的特征信息,从而准确地实现文字识别,提高识别率。
具体地,本申请是通过如下技术方案实现的:
一种文字识别的方法,包括:
从目标文字图片中提取特征图;
对所述特征图进行滑窗处理,得到时空特征序列;
将所述时空特征序列输入到预先训练的时空注意力模型,以由所述时空注意力模型对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息。
在所述文字识别的方法中,所述对所述特征图进行滑窗处理,得到时空特征序列,包括:
将预设的滑窗置于所述特征图的一端,分割出该滑窗所在位置的局部特征图;
基于预设的步长移动该滑窗,并分割出移动后的该滑窗所在位置的局部特征图;
重复这个过程,直到所述滑窗移动至所述特征图的另一端,获取到的多个局部特征图为时空特征序列。
在所述文字识别的方法中,所述时空注意力模型输出的文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息;所述方法还包括:
将所述图片序列输入到预设的全连接层,以由所述全连接层对所述图片序列进行分类,并输出字符形式的文字信息。
在所述文字识别的方法中,所述对所述时空特征序列编码处理得到时空语义编码,并对所述时空语义编码解码输出识别出的所述目标文字图片中的文字信息,包括:
计算获得所述时空特征序列的权值因子;
基于所述权值因子和所述时空特征序列,计算得到所述时空语义编码;
基于所述时空特征序列和所述时空语义编码,利用循环神经网络计算得到若干循环神经网络的状态单元的隐变量;
基于所述状态单元的隐变量,计算得到所述目标文字图片中的文字信息,并输出所述目标文字图片中的文字信息;其中,所述文字信息为图片序列,所述图片序列指示所述目标文字图片中的文字信息。
在所述文字识别的方法中,所述计算获得所述时空特征序列的权值因子,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810691282.2/2.html,转载请声明来源钻瓜专利网。





