[发明专利]一种自然场景图像中的英文文字和数字识别方法有效

专利信息
申请号: 201710592890.3 申请日: 2017-07-19
公开(公告)号: CN107368831B 公开(公告)日: 2019-08-02
发明(设计)人: 张军;涂丹;李硕豪;陈旭;雷军;郭强 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06K9/32 分类号: G06K9/32;G06K9/62
代理公司: 国防科技大学专利服务中心 43202 代理人: 徐志宏
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种自然场景图像中的英文文字与数字识别方法,将自然场景中的英文文字和数字的识别问题分为特征提取,特征聚焦和特征识别三个步骤,利用卷积神经网络对输入图像进行特征提取,注意力机制对特征序列中的有用信息进行聚焦,长短时记忆网络对特征向量进行识别,从而将深度神经网络和注意力机制结合,当输入图像到深度神经网络时,可以直接得出最终的识别结果。本发明不需要对输入图像进行滑窗操作并对窗口中的字符进行识别;同时本发明输出的字符串即为最终的识别结果,不需要合并算法对识别后的字符串进行整合。
搜索关键词: 一种 自然 场景 图像 中的 英文 文字 数字 识别 方法
【主权项】:
1.一种自然场景图像中的英文文字和数字识别方法,包括如下步骤:步骤(一),采用深度神经网络中的卷积神经网络对输入的图像进行特征提取,将卷积神经网络的输出作为特征提取的结果;所述卷积神经网络从输入到输出依次由:卷积层1、批量标准化层1、池化层1、卷积层2、批量标准化层2、池化层2、卷积层3、批量标准化层3、卷积层4、批量标准化层4、池化层4、卷积层5、批量标准化层5、卷积层6、批量标准化层6、池化层6、卷积层7、批量标准化层7组成;其中卷积层1~7的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为:(3,64,1,1),(3,128,1,1),(3,256,1,1),(3,256,1,1),(3,512,1,1),(3,512,1,1)和(2,512,1,0);批量标准化层1~7的目的是调整中间结果数据的分布,没有参数;池化层1、2、4、6的参数按照池化窗口、左右滑动间隔,上下滑动间隔,左右扩充大小和上下扩充大小的顺序依次为:(2*2,2,2,0,0),(2*2,2,2,0,0),(1*2,1,2,0,0)和(1*2,1,2,0,0);图像在输入到卷积神经网络之前需要将图像的分辨率调整为80×32,所述卷积神经网络的输出为大小为512×19的二维特征矩阵;将所述二维特征矩阵序列化后得到包含19个大小为1×512向量的特征序列,表示为:S={s1,s2,...sL},其中si∈R512,i=1,2,…,L;L=19,表示序列的长度;步骤(二),采用注意力机制对包含19个大小为1×512向量的特征序列S进行特征聚焦:按照从左到右的空间顺序依次识别图像中的字符,设定训练数据集中的字符长度最大为24,对特征序列S进行24次特征聚焦,将每一次的特征聚焦当作一个时刻;输出特征向量的集合Vf,Vf={V1,V2,...VT},T=24;其中特征向量Vt表示第t次特征聚焦的结果:代表第t次特征聚焦时注意力机制的系数,其中其中ht‑1表示第三步骤中第t‑1时刻长短时记忆单元的隐变量;WT,Wa,Ua和ba是注意力模型的参数,由基于随机梯度下降的后向传播算法进行训练;步骤(三),利用深度神经网络中的长短时记忆网络对聚焦后的特征向量进行识别:长短时记忆网络含有24个单元,第t时刻的长短时记忆单元的输入就是第t次特征聚焦后的特征向量Vt,输出就是识别出的字符类别Jt;每个时刻选取概率最大的字符类别作为此时刻长短时记忆单元的输出,选取方式为:其中zi=softmax(ht);所述ht表示第t时刻长短时记忆单元的隐变量;识别结束后整个网络的输出就是24个字符的组合,取结束符之前的字符串作为最终的识别结果;其中所述Jt有37个类别,包括:26个英文字母,0~9共10个数字,结束符“‑”;所述结束符表示字符串识别结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710592890.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top