[发明专利]一种基于图像分割的工件金属表面文字识别方法及系统有效
申请号: | 201911373220.8 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111160352B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 徐辉;陆强;袁智超;孙天齐 | 申请(专利权)人: | 创新奇智(北京)科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19;G06V10/82;G06N3/0464 |
代理公司: | 深圳珠峰知识产权代理有限公司 44899 | 代理人: | 黄伟 |
地址: | 100080 北京市海淀区海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 分割 工件 金属表面 文字 识别 方法 系统 | ||
1.一种基于图像分割的工件金属表面文字识别方法,其特征在于,具体包括以下步骤:
步骤S1,获取工件金属表面的文本行图像;
步骤S2,根据预先生成的文字识别模型对所述文本行图像进行特征提取,得到所述文本行图像对应的语义分割掩码图和实例分割掩码图;
步骤S3,根据所述语义分割掩码图处理得到所述文本行图像中的若干文字区域;
步骤S4,根据所述实例分割掩码图处理得到各所述文字区域的文字类别;
步骤S5,根据所述文字区域的二维坐标位置和所述文字类别处理得到所述文本行图像的文字识别结果;
基于图像分割的工件金属表面文字识别方法还包括一预先生成所述文字识别模型的过程,具体包括:
步骤A1,获取所述工件金属表面的若干文本行图像,并对各所述文本行图像进行字符级别的标注,得到包含字符标注信息的标注图像;
所述字符标注信息包括图像中各字符的真实位置区域和真实类别信息;
步骤A2,将各所述标注图像输入具有预设参数的初始识别模型中进行特征提取,得到所述标注图像对应的语义分割掩码图和实例分割掩码图;
步骤A3,分别计算所述语义分割掩码图中各字符的预测位置区域和对应的所述真实位置区域之间的第一交叉熵损失,以及所述实例分割掩码图中各字符的预测类别信息与对应的所述真实类别信息之间的第二交叉熵损失;
步骤A4,对所述第一交叉熵损失和所述第二交叉熵损失求和得到所述初始识别模型的总交叉熵损失,并将所述总交叉熵损失与预设的损失阈值进行比较:
若所述总交叉熵损失不小于所述损失阈值,则转向步骤A5;
若所述总交叉熵损失小于所述损失阈值,则转向步骤A6;
步骤A5,对所述预设参数进行调整,随后返回所述步骤A2;
步骤A6,将所述初始识别模型作为文字识别模型进行保存。
2.根据权利要求1所述的基于图像分割的工件金属表面文字识别方法,其特征在于,所述文字识别模型的网络架构具体包括:
普通卷积层,所述普通卷积层包括卷积核大小为3x3且步长为2的卷积层、BN层和RELU层,且所述普通卷积层的输出通道为32;
第一残差卷积块,连接所述普通卷积层,所述第一残差卷积块包括一个深度可分离卷积,所述深度可分离卷积的卷积核大小为3x3,步长为1,且所述第一残差卷积块的输出通道为16;
第二残差卷积块,连接所述第一残差卷积块,所述第二残差卷积块包括一第一深度可分离卷积和一第二深度可分离卷积,且所述第一深度可分离卷积的卷积核大小为3x3,步长为2,输出通道为24,所述第二深度可分离卷积的卷积核大小的卷积核大小为3x3,步长为1,输出通道为24;
第三残差卷积块,连接所述第二残差卷积块,所述第三残差卷积块包括一第三深度可分离卷积、一第四深度可分离卷积和一第五深度可分离卷积,且所述第三深度可分离卷积的卷积核大小为3x3,步长为2,输出通道为32,所述第四深度可分离卷积的卷积核大小的卷积核大小为3x3,步长为1,输出通道为32,所述第五深度可分离卷积的卷积核大小的卷积核大小为3x3,步长为1,输出通道为32;
第四残差卷积块,连接所述第三残差卷积块,所述第四残差卷积块包括四个第六深度可分离卷积,且各所述第六深度可分离卷积的卷积核大小为3x3,步长为1,输出通道为64;
第五残差卷积块,连接所述第四残差卷积块,所述第五残差卷积块包括三个第七深度可分离卷积,且各所述第七深度可分离卷积的卷积核大小为3x3,步长为1,输出通道为96;
第六残差卷积块,连接所述第五残差卷积块,所述第六残差卷积块包括三个第八深度可分离卷积,且各所述第八深度可分离卷积的卷积核大小为3x3,步长为1,输出通道为160;
第七残差卷积块,连接所述第六残差卷积块,所述第七残差卷积块包括一第九深度可分离卷积,且所述第九深度可分离卷积的卷积核大小为3x3,步长为1,输出通道为320;
第八残差卷积块,连接所述第七残差卷积块,所述第八残差卷积块的输出层经两个不同的卷积上采样后分别生成语义分割掩码图和实例分割掩码图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(北京)科技有限公司,未经创新奇智(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911373220.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序