[发明专利]基于残差网络的图像处理方法及装置在审
| 申请号: | 202111521277.5 | 申请日: | 2021-12-13 |
| 公开(公告)号: | CN114155542A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 张凯昱;杨青 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
| 主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/19;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 赵昀彬 |
| 地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 图像 处理 方法 装置 | ||
本发明公开了一种基于残差网络的图像处理方法及装置。其中,该方法包括:获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。本发明解决了现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。
技术领域
本发明涉及计算机视觉及图像生成领域,具体而言,涉及一种基于残差网络的图像处理方法及装置。
背景技术
随着计算机性能的快速提升以及大数据时代的来临,以深度学习作为主要方式的OCR(Optical Character Recognition,光学字符识别)技术已经被广泛应用到卡证分析、交通管理以及票据识别等场景中。作为数据驱动的技术方向,主流的OCR算法模型都需要大量的标注数据作为模型性能提升的保证。但是在实际情况中,符合目标场景的开源数据集较少;此外,人工标注业务数据的方式成本较高。相较于人工标注的方式,利用图像文本生成算法批量生成数据的方式拥有量级可控、成本低廉的优势,已经被业界广泛使用。
为了提升OCR算法的检测和识别性能,图像文本生成技术已经成为训练OCR算法模型必备的前置策略。相关技术中提供了一种基于风格迁移的图像文本生成方式可以将带有目标字体风格的文本渲染到原始文本所在的背景图像中,但是,该算法针对的是固定位置的文本进行替换,导致背景图像块信息的缺失。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于残差网络的图像处理方法及装置,以至少解决现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。
根据本发明实施例的一个方面,提供了一种基于残差网络的图像处理方法,包括:获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。
可选地,获取第一文本图像包括:从文本集合中随机获取第一文本;基于第一字体文件将第一文本渲染至第一背景图像,生成第一文本图像,其中,第一字体文件为第一风格对应的字体文件。
可选地,获取目标背景图像包括:获取第二文本图像对应的业务数据的标注信息,其中,标注信息用于表征业务数据中包含的文本在业务数据中的位置;基于标注信息从业务数据中随机确定目标背景图像。
可选地,上述方法还包括:构建训练数据集,其中,训练数据集包括:第一训练图像、第二训练图像和第三训练图像,其中,第一训练图像包含第一风格的第一训练文本,第二训练图像包含第二风格的第二训练文本,第三训练图像包含第二风格的第一训练文本,第三训练图像中的背景图像与第二训练图像中的背景图像为同一张背景图像的不同图像块;利用训练数据集对初始残差网络进行训练,得到训练好的残差网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111521277.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种原油破乳剂及制备方法
- 下一篇:一种用于配电变压器的运行过载管控系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





