[发明专利]一种自然场景图像中的英文文字和数字识别方法有效
申请号: | 201710592890.3 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107368831B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 张军;涂丹;李硕豪;陈旭;雷军;郭强 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 徐志宏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然 场景 图像 中的 英文 文字 数字 识别 方法 | ||
1.一种自然场景图像中的英文文字和数字识别方法,包括如下步骤:
步骤(一),采用深度神经网络中的卷积神经网络对输入的图像进行特征提取,将卷积神经网络的输出作为特征提取的结果;所述卷积神经网络从输入到输出依次由:卷积层1、批量标准化层1、池化层1、卷积层2、批量标准化层2、池化层2、卷积层3、批量标准化层3、卷积层4、批量标准化层4、池化层4、卷积层5、批量标准化层5、卷积层6、批量标准化层6、池化层6、卷积层7、批量标准化层7组成;其中卷积层1~7的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为:(3,64,1,1),(3,128,1,1),(3,256,1,1),(3,256,1,1),(3,512,1,1),(3,512,1,1)和(2,512,1,0);批量标准化层1~7的目的是调整中间结果数据的分布,没有参数;池化层1、2、4、6的参数按照池化窗口、左右滑动间隔,上下滑动间隔,左右扩充大小和上下扩充大小的顺序依次为:(2*2,2,2,0,0),(2*2,2,2,0,0),(1*2,1,2,0,0)和(1*2,1,2,0,0);图像在输入到卷积神经网络之前需要将图像的分辨率调整为80×32,所述卷积神经网络的输出为大小为512×19的二维特征矩阵;将所述二维特征矩阵序列化后得到包含19个大小为1×512向量的特征序列,表示为:S={s1,s2,...sL},其中si∈R512,i=1,2,…,L;L=19,表示序列的长度;
步骤(二),采用注意力机制对包含19个大小为1×512向量的特征序列S进行特征聚焦:按照从左到右的空间顺序依次识别图像中的字符,设定训练数据集中的字符长度最大为24,对特征序列S进行24次特征聚焦,将每一次的特征聚焦当作一个时刻;输出特征向量的集合Vf,Vf={V1,V2,...VT},T=24;其中特征向量Vt表示第t次特征聚焦的结果:且代表第t次特征聚焦时注意力机制的系数,其中其中ht-1表示第三步骤中第t-1时刻长短时记忆单元的隐变量;WT,Wa,Ua和ba是注意力模型的参数,由基于随机梯度下降的后向传播算法进行训练;
步骤(三),利用深度神经网络中的长短时记忆网络对聚焦后的特征向量进行识别:长短时记忆网络含有24个单元,第t时刻的长短时记忆单元的输入就是第t次特征聚焦后的特征向量Vt,输出就是识别出的字符类别Jt;每个时刻选取概率最大的字符类别作为此时刻长短时记忆单元的输出,选取方式为:其中zi=softmax(ht);所述ht表示第t时刻长短时记忆单元的隐变量;识别结束后整个网络的输出就是24个字符的组合,取结束符之前的字符串作为最终的识别结果;其中所述Jt有37个类别,包括:26个英文字母,0~9共10个数字,结束符“-”;所述结束符表示字符串识别结束。
2.如权利要求1所述的方法,其特征在于,对该方法中的参数进行训练的方法为:设X={Ii,Li}为训练数据集,Ii表示第i个图像,Li为第i个图像中字符串的真实值;训练过程中的目标函数为:其中W表示卷积神经网络,注意力机制和长短时记忆网络的参数,W*表示所述参数的最优数值,Li,t表示第i个图像对应的标签中的第t个字符,p(Jt=Li,t|Ii,J1,…Jt-1)为在已知前t-1个字符取值时,第t个字符的取值标签Li,t的概率;利用基于随机梯度下降的后向传播算法对网络参数W进行训练。
3.如权利要求1所述的方法,其特征在于,所述输入的图像为灰度图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710592890.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序