[发明专利]OCR图像自动生成方法及装置在审
| 申请号: | 202010189353.6 | 申请日: | 2020-03-17 |
| 公开(公告)号: | CN111401365A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 潘威滔 | 申请(专利权)人: | 海尔优家智能科技(北京)有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吕昕炜 |
| 地址: | 100086 北京市海淀区知春*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | ocr 图像 自动 生成 方法 装置 | ||
本发明提供了一种OCR图像自动生成方法及装置,其中,OCR图像自动生成方法包括:获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。通过本发明,解决了相关技术中,OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,以达到可高效的获取大量带有标签的OCR图像数据的效果。
技术领域
本发明涉及图像处理、图像生成及计算机视觉领域,具体而言,涉及一种OCR图像自动生成方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指在图像中识别出所有文字,数字,标点符号等各种字符。随着深度学习在图像领域中发挥的巨大作用,目前,主流的OCR识别算法多采用监督深度学习模型进行实现。监督深度学习模型由于其参数量巨大,为保证模型优秀的泛化能力,需要大量带标签的图像数据作为训练集输入至神经网络中进行学习。
但是,上述采用监督深度学习模型进行OCR识别的过程中存在以下问题:原始的OCR图像数据难以大规模获取。现有的公开数据集中基本没有海量的OCR图像数据,进而造成原始数据的获取困难。相关技术中对此多采用以下方式以获取原始图像数据:1)数据爬取,即通过通过网络爬取相关图像数据,然后采用机器筛选与人工筛选相结合的方式,得到与任务相关的可用原始图像数据;但数据爬取在后续过程中,需对爬取的数据进行程序筛选,程序去重,人工筛选等一系列繁琐耗时的处理过程。2)数据生成,即自动化生成图像数据,目前主流的方法包括数据增强和对抗生成网络两种方法;数据增强方法是指在图像中随机增加噪声,偏转,裁剪等简单操作,此方法操作简单可控,但缺点是无法生成真实图像中各种复杂情况的图像,放入到深度学习模型中训练效果提升有限;对抗生成网络(Generative Adversarial Network,GAN)方法是指采用深度学习中GAN网络模型,自动生成类似于真实场景中可能出现的各种图像,此方法优点是生成的伪真实图像非常类似于真实图像,但缺点是无法对应生成标签数据,所以在后续过程中,还需要人工标注数据。
与此同时,在获取图像数据的基础上,还需获得图像的标签数据。因为在OCR识别中,需要的标签数据为每个文字的边框信息(即文字左上角xy坐标和正好框住文字所需的边框长宽),因此,即便是几行简单文字,由于需要对每个文字做边框标注也会耗费相当的人力与时间成本。相关技术中,获得图像的标签数据的方式主要包括两种:1)纯手工标注,即不采取任何自动化方式,存在耗时耗力的缺点,并且由于手工标注本身也存在误差,可能使得最终学习的网络模型稳定性较差;2)采用机器标注配合手工校正的方式,即先通过机器自动标注,但由于准确率很低,仍然需要大量人力去校正机器的标注结果。
针对上述相关技术中,OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题,相关技术中尚未提出有效的解决方案。
发明内容
本发明实施例提供一种OCR图像自动生成方法及装置,以至少解决相关技术中OCR图像的生成以及标签数据获得的效率低下,导致难以高效的获取大量带有标签的OCR图像数据的问题。
根据本发明的一个实施例,提供了一种OCR图像自动生成方法,包括:
获取一个或多个文字对象的像素坐标信息,其中,所述像素坐标信息用于指示所述文字对象中的每一个像素在终端成像所得的图像中的坐标位置;
根据一个或多个所述文字对象的所述像素坐标信息,以生成一个或多个光学字符识别OCR图像。
根据本发明的另一个实施例,还提供了一种OCR图像自动生成装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海尔优家智能科技(北京)有限公司,未经海尔优家智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010189353.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





