[发明专利]文本图像的生成方法、装置、计算机设备和存储介质在审
| 申请号: | 202110850446.3 | 申请日: | 2021-07-27 |
| 公开(公告)号: | CN113554549A | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 巫文良;罗琳耀;余蓓;沈小勇;吕江波;贾佳亚 | 申请(专利权)人: | 深圳思谋信息科技有限公司;上海思谋科技有限公司 |
| 主分类号: | G06T3/00 | 分类号: | G06T3/00 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 樊倩 |
| 地址: | 518051 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 图像 生成 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能技术领域,提供了一种文本图像的生成方法、装置、设备和介质。本申请能提高文本图像的生成效率和质量。该方法主要包括:将由预设文本内容部分和背景部分构成的文本内容图像划分为多个图像块并转化为相应的图像块特征,在各文本内容图像块特征中添加位置信息得到多个携带位置信息的文本内容图像块特征,将风格参照图像划分为多个风格参照图像块并转化为相应的风格参照图像块特征,将多个携带位置信息的文本内容图像块特征输入至transformer网络的编码器得到文本内容结构特征,将文本内容结构特征和多个风格参照图像块特征输入transformer网络的解码器得到文本内容‑风格融合特征,通过解码器网络将文本内容‑风格融合特征解码得到文本图像。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本图像的生成方法、装置、计算机设备和存储介质。
背景技术
文字是现今重要的信息载体。光学字符识别(OpticalCharacterRecognition,OCR)是指对含有文本内容的图像文件进行分析识别处理,获取文字及版面信息的过程。在工业视觉领域中,光学字符识别(OCR)技术主要应用在医药、食品外包装,箱体字符、金属部件等场景下,主要是对生产日期、保质期、生产批号、厂家等信息进行字符识别。传统的字符识别场景环境比较单一,字体规范,所以识别率较高。但是面对背景较复杂或非标准化的字符,传统的字符识别方法的检测识别率较低,远远达不到实际应用的需求。
随着深度学习技术的发展,复杂背景的光学字符识别率有所提升。但深度学习是数据驱动型的方法,需要大量的标注数据才能有效提升识别率。
目前,对文本中字符生成的研究得到了关注和发展,与文本中字符相关的生成方式主要有字符形状生成(glyph shape generation)方法和字符特效生成(text effectsgeneration)方法,还有将字符形状生成和字符特效生成结合起来,提出了有字形变化的字体特效化方法。一些方法提出编辑自然图像中的文本,也就是在保持原图自然的背景下,用另一个词替换或者修改原图上的文本信息,具体做法主要是将原图文本在保留风格的情况下替换为目标文本,以及擦除原来的文本并使用合适的纹理去填充被擦除的文本区域,最后将两者进行组合生成编辑好的文本图像。
在自然或工业的图像数据中,文本往往只出现在图像中的某些小区域,目前的技术往往是逐一对这些小区域进行处理,再拼合成高分辨率的文本图像,然而,这样会一方面会由于需要逐一替换文本字体所在区域而降低文本图像的生成效率,另一方面还会因不同区域的文本字体处理结果可能存在的偏差且仅能根据一小部分的背景信息对文本字体添加风格而导致所生成的文本图像质量较低。
发明内容
基于此,有必要针对上述技术问题,提供一种文本图像的生成方法、装置、计算机设备和存储介质。
一种文本图像的生成方法,所述方法包括:
获取由预设文本内容部分和背景部分构成的文本内容图像,以及获取风格参照图像;
将所述文本内容图像划分为多个文本内容图像块,将所述多个文本内容图像块转化为相应的文本内容图像块特征,以及在各文本内容图像块特征中添加相应的图像块位置信息,得到多个携带图像块位置信息的文本内容图像块特征;
将所述风格参照图像划分为多个风格参照图像块,将所述多个风格参照图像块转化为相应的风格参照图像块特征,得到多个风格参照图像块特征;
将所述多个携带图像块位置信息的文本内容图像块特征输入至transformer网络的编码器,并将所述编码器输出的特征作为文本内容结构特征;
将所述文本内容结构特征和所述多个风格参照图像块特征输入transformer网络的解码器,并将所述解码器输出的特征作为文本内容-风格融合特征;
通过解码器网络将所述文本内容-风格融合特征进行解码,得到文本图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳思谋信息科技有限公司;上海思谋科技有限公司,未经深圳思谋信息科技有限公司;上海思谋科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110850446.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





