[发明专利]一种基于参数重构网络的字符识别方法及系统有效
申请号: | 202210065743.1 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114418001B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 庞枫骞;康营营;赵鸿飞 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/774;G06N3/0464;G06N3/0442;G06T3/00;G06T3/40;G06V20/62;G06V30/40 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘芳 |
地址: | 100144 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参数 网络 字符 识别 方法 系统 | ||
1.一种基于参数重构网络的字符识别方法,其特征在于,包括:
获取待检测图像;
利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
特征金字塔网络拼接和提取过程如下:
第一步,输入图片经过s11阶段,经过卷积层,池化层以及模型重构网络,其中模型重构网络即为模型重构层;接着按顺序将输出的特征图送入模型重构层中,将特征图不断减小,减小到原始输入图像的1/32,然后进入s12阶段;
第二步,将s11的输出送进s12阶段,首先经过上采样层,再将特征图大小不断增大,从原始输入图像的1/32放大到1/4,最后输出图片,得到共享特征图;
特征金字塔网络将底层和高层的特征进行了融合,也就是将底层特征图和高层特征图进行相加,以便对图像中的文本进行检测;其特征金字塔网络的主干网络是模型重构网络;图片进入模型重构网络的步骤如下:
第一步,进行卷积的模型重构s1阶段,输入经过卷积的模型重构s1阶段,对输入的特征矩阵进行三个操作,分别是3x3卷积、1x1卷积和跨线结构,得到三个输出;三个输出进入模型重构s2阶段;
第二步,进行求和的模型重构s2阶段,模型重构s1阶段的输出进入模型重构s2阶段,将模型重构s1阶段的三个输出进行相加,然后进入激活函数,使其变为非线性,能够进行反向传播;
在模型推理阶段,通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层,然后将并列的两个分支都加到原本的3x3卷积中,便于网络的部署和加速;
在训练时,首先在ImageNet数据集上训练模型作为预训练权重,训练过程中包含两步,第一步使用Synth800k数据集训练,迭代10次;然后使用ICDAR2015和ICDAR2017数据集进行微调;通过NVIDIAJETSONAGXXAVIER开发板进行演示,使用模型重构层作为主干网络,训练完成后,其预测模型在经过参数简化后被送进开发板;
利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
利用全卷积神经网络对共享特征图进行检测的步骤如下:
第一步,输入经过5x5卷积层和池化层,进入s21阶段,首先经过两个3x3卷积层以及池化层,然后进入s22阶段;
第二步,s22阶段经过两个卷积层以及池化层,其输出进入s23阶段和s27阶段;
第三步,s23阶段经过两个卷积层以及池化层,其输出进入s24阶段和s28阶段;
第四步,s24阶段经过两个卷积层以及池化层,其输出进入s25阶段和s29阶段;
第五步,s25阶段经过两个卷积层以及池化层,其输出进入s26阶段;
第六步,s27阶段经过1x1卷积之后,其输出进入s26阶段;
第七步,s28阶段经过1x1卷积之后,其输出进入s26阶段;
第八步,s29阶段经过1x1卷积之后,其输出进入s26阶段;
第九步,s26阶段经过1x1卷积和三个上采样过程,第一个上采样层与s27阶段的输出相加;第二个上采样过程与s28阶段的输出相加;第三个上采样过程与s29阶段的输出相加;最后通过损失函数输出分类loss值和定位loss值以便反向传播;
对不同深度的特征图进行跨层连接,以提高模型对不同大小物体的检测效果;在模型尾端的卷积层后通过两个分支:分类和定位,得到两类任务的loss,二者加权作为模型总loss;分类分支输出每像素的单词预测;定位分支输出文本框到边界框的顶部、底部、左侧、右侧的距离和方向;
对所述共享特征图和所述带预测文本框的图像进行仿射变换,得到水平特征图;
对所述水平特征图进行识别,得到预测文本标签;
根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果;
基于参数重构网络的字符识别方法对目标硬件和时延要求反向设计参数重构网络;首先,选取现有的轻量型网络作为目标网络,使其可以在目标边缘计算平台上可以运行并满足时延要求;然后为轻量型网络设计可压缩的并行1x1卷积和跨线结构;网络扩展后可以保证其训练后的模型精度,通过测试过程中的压缩即可还原为目标网络;相对于直接训练目标网络本方法可以获得更优的性能;将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习,由于主干网络各层被加宽,增加了网络对于字符识别任务更具有适应性,从而提高了字符识别框架的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210065743.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种平流沉淀池排泥设备
- 下一篇:一种多应用场景的网络货运平台