[发明专利]一种手写英文单词识别方法及系统在审
| 申请号: | 202011392168.3 | 申请日: | 2020-12-02 |
| 公开(公告)号: | CN112633079A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 马磊;侯庆;许信顺;谭玉慧;初宛晴 | 申请(专利权)人: | 山东山大鸥玛软件股份有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 孙玉营 |
| 地址: | 250101 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 手写 英文单词 识别 方法 系统 | ||
1.一种手写英文单词识别方法,其特征在于,包括:
将待识别图像进行长度预处理,得到标准图像数据;
将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;
将所述空间特征向量输入预先训练好的编码器,得到编码信息;
将所述编码信息输入预先训练好的解码器,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将待识别图像进行长度预处理,得到标准图像数据,包括:
设置图像的宽度标准值和长宽比;
将所述待识别图像转换为灰度图;
将所述待识别图像的宽度调整为所述标准值,并根据所述长宽比调整所述待识别图像的长度;
若所述长度达不到预设长度值,则用白色进行填充;
对经灰度转换和长宽调整的待识别图像的图像数据进行去均值和归一化处理,得到标准图像数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建卷积神经网络模型、含双隐藏层的双向长短期记忆网络和注意力机制的双向长短期记忆网络,其中,含双隐藏层的双向长短期记忆网络为编码器,注意力机制的双向长短期记忆网络为解码器;
准备多张带有手写英文单词的图像,生成训练集、验证集和测试集;
利用所述训练集和验证集对构建卷积神经网络模型、编码器和解码器进行训练;
利用测试集对训练好的卷积神经网络模型、编码器和解码器进行测试,根据测试结果筛选最优的卷积神经网络模型、编码器和解码器。
4.根据权利要求3所述的方法,其特征在于,所述构建卷积神经网络模型包括:
设置卷积神经网络模型的Conv卷积层的初始化策略为每层输出的方差相差不超过预设阈值;
设置卷积核的尺寸为3*3;
将Relu设置为所述卷积神经网络模型的激活函数;
选用MaxPooling池化层,并设置所述MaxPooling池化层采用VALID填充方式,池化窗口尺寸包括2*2和2*1;
在部分卷积层后增加Batch Normalization层和dropout操作。
5.根据权利要求1所述的方法,其特征在于,所述将所述空间特征向量输入预先训练好的编码器,得到编码信息,包括:
编码器接收所述空间特征向量之后更新自身隐藏状态,将所述空间特征向量依次按照时间步进行双向传递;
编码器的两层隐藏层执行同样的状态更新和双向传递操作后,连结最后一层隐藏层的双向隐藏状态,作为输出层的输入,得到编码器的编码信息。
6.根据权利要求1所述的方法,其特征在于,所述将所述编码信息输入预先训练好的解码器,得到识别结果,包括:
所述解码器接收所述编码信息后,初始化自身隐藏状态,并计算当前时间步各个编码信息的注意力权重,进行加权求和后得到上下文序列信息;
所述解码器以上一时刻的输出和隐藏状态以及上下文序列信息此三者作为输入,更新自身隐藏状态,传递至输出层;
输出层输出每一时刻概率最大的字符,作为最终的识别结果。
7.一种手写英文单词识别系统,其特征在于,包括:
预先处理单元,配置用于将待识别图像进行长度预处理,得到标准图像数据;
图像识别单元,配置用于将所述标准图像数据输入预先训练好的卷积神经网络模型,得到空间特征向量;
序列编码单元,配置用于将所述空间特征向量输入预先训练好的编码器,得到编码信息;
序列解码单元,配置用于将所述编码信息输入预先训练好的解码器,得到识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东山大鸥玛软件股份有限公司,未经山东山大鸥玛软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011392168.3/1.html,转载请声明来源钻瓜专利网。





