[发明专利]图像识别的方法及装置有效
申请号: | 201910831740.2 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110674811B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 刘学文 | 申请(专利权)人: | 广东浪潮大数据研究有限公司 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/148;G06N3/04 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李慧引 |
地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 识别 方法 装置 | ||
1.一种图像识别的方法,其特征在于,包括:
获取待识别图像;其中,所述待识别图像显示有一行待识别文本;
利用目标检测算法模型对所述待识别图像进行处理,得到组成所述待识别文本的每一个文字的位置信息,包括:判断所述待识别文本的大小是否符合预设大小,若判断出所述待识别文本的大小不符合所述预设大小,则将所述待识别文本的大小变更为所述预设大小,记录在所述待识别文本变更为所述预设大小后,所述待识别文本中的每个汉字的位置(xmin,ymin,xmax,ymax);其中,(xmin,ymin)和(xmax,ymax)分别是所述汉字的左上角坐标和右下角坐标,所述将所述待识别文本的大小变更为所述预设大小包括:若所述待识别文本的大小小于预设大小,则将所述待识别文本的下面补上空白部分以调整图像样本的大小至预设大小,若所述待识别文本的大小大于预设大小,则将不包括文字的部分进行分割;
根据所述待识别文本的每一个文字的位置信息对所述待识别图像进行分割,得到多个子图像;其中,每个所述子图像均显示有一个所述文字;
利用文字识别-卷积神经网络模型对所述每一个所述子图像进行处理,识别出每一个所述子图像中的文字;
将识别得到的每一个文字按所述文字的位置信息排列,得到所述待识别图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述利用目标检测算法模型对所述待识别图像进行处理,得到组成所述待识别文本的每一个文字的位置信息之前,还包括:
判断所述待识别图像显示的待识别文本是否为多行;
若判断出所述待识别图像显示的待识别文本为多行,则找到每一行的上界限和下界限,进行水平切割得到多个所述待识别子文本。
3.根据权利要求1所述的方法,其特征在于,所述记录在所述待识别文本变更为所述预设大小后,所述待识别文本中的每个汉字的位置(xmin,ymin,xmax,ymax)之后,还包括:
利用预设的锚,对所述待识别文本中的每个汉字大小进行识别,确认所述待识别文本中的每个汉字的大小;其中,所述预设的锚的大小为(10,10)、(20,20)、(30,30)、(40,40)、(50,50)和(60,60)。
4.根据权利要求1所述的方法,其特征在于,所述利用文字识别-卷积神经网络模型对所述每一个所述子图像进行处理,识别出每一个所述子图像中的文字之前,还包括:
按照预设的单个文字的大小调整所述每一个所述子图像的大小。
5.一种图像识别的装置,其特征在于,包括:
获取单元,用于获取待识别图像;其中,所述待识别图像显示有一行待识别文本;
第一处理单元,用于利用目标检测算法模型对所述待识别图像进行处理,得到组成所述待识别文本的每一个文字的位置信息;
分割单元,用于根据所述待识别文本的每一个文字的位置信息对所述待识别图像进行分割,得到多个子图像;其中,每个所述子图像均显示有一个所述文字;
第二处理单元,用于利用文字识别-卷积神经网络模型对所述每一个所述子图像进行处理,识别出每一个所述子图像中的文字;
排列单元,用于将识别得到的每一个文字按所述文字的位置信息排列,得到所述待识别图像的识别结果;
所述第一处理单元,包括:
第二判断单元,用于判断所述待识别文本的大小是否符合预设大小;
变更单元,用于若所述第二判断单元判断出,所述待识别文本的大小不符合所述预设大小,则将所述待识别文本的大小变更为所述预设大小,所述将所述待识别文本的大小变更为所述预设大小包括:若所述待识别文本的大小小于预设大小,则将所述待识别文本的下面补上空白部分以调整图像样本的大小至预设大小,若所述待识别文本的大小大于预设大小,则将不包括文字的部分进行分割;
记录单元,用于记录在所述待识别文本变更为所述预设大小后,所述待识别文本中的每个汉字的位置(xmin,ymin,xmax,ymax);其中,(xmin,ymin)和(xmax,ymax)分别是所述汉字的左上角坐标和右下角坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东浪潮大数据研究有限公司,未经广东浪潮大数据研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910831740.2/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序