[发明专利]文字识别方法、装置、设备及介质有效
| 申请号: | 201910803929.0 | 申请日: | 2019-08-28 |
| 公开(公告)号: | CN110503159B | 公开(公告)日: | 2022-10-11 |
| 发明(设计)人: | 张水发 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/162;G06V30/18;G06V30/19 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 识别 方法 装置 设备 介质 | ||
本公开关于一种文字识别方法、装置、设备及介质,属于多媒体技术领域。所述方法包括:根据文字和背景图像的深度图确定每个背景图像的目标图像区域,将文字添加至背景图像的目标图像区域,生成大量的场景文字图像用于训练文字识别模型,最终使用文字识别模型识别文字,降低了模型训练样本的采集难度和获取成本,提高了文字识别模型的准确率和召回率。
技术领域
本公开涉及多媒体技术领域,特别涉及一种文字识别方法、装置、设备及介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,该技术可以应用于对自然场景图像中的文字进行识别并获取,也即是场景文字识别。
当前场景文字识别一般通过文字识别模型实现,而文字识别模型大多采用深度学习的方法训练模型。由于深度学习在训练模型时需要大量训练样本,而获取大量训练样本并非易事,尤其是在场景文字识别中,场景文字图像样本采集困难且样本中的文字难于标注,导致样本获取成本较大,限制了模型的学习,最终影响了文字识别模型的准确率和召回率。
发明内容
本公开提供了一种文字识别方法、装置、设备及介质,以至少解决相关技术中场景文字图像样本采集困难,获取成本大导致训练出的文字识别模型准确率和召回率低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文字识别方法,包括:
获取多个背景图像和文字;
对于每个背景图像,基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征,确定每个背景图像的目标图像区域;
将该文字添加至该目标图像区域,得到该每个背景图像对应的场景文字图像;
当获取到待识别的图像时,将该图像输入基于该每个背景图像对应的场景文字图像训练得到的文字识别模型中,输出该图像的文字识别结果。
在一种可能实现方式中,该基于该每个背景图像的深度图中像素点的像素值以及该文字的文字特征,确定每个背景图像的目标图像区域,包括:
根据该每个背景图像的深度图中像素点的像素值,确定该每个背景图像的至少一个图像区域,每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值;
根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征,以及该文字的文字特征,确定该每个背景图像的目标图像区域。
在一种可能实现方式中,该根据该每个背景图像的深度图中像素点的像素值,确定该每个背景图像的至少一个图像区域,包括:
对于该每个背景图像的深度图中任意两个相邻像素点,当该任意两个相邻像素点的像素值之间的差值小于差值阈值时,确定该两个相邻像素点位于同一图像区域。
在一种可能实现方式中,该根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征,以及该文字的文字特征,确定该每个背景图像的目标图像区域,包括:
根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征,以及该文字的文字特征,从该至少一个图像区域中,确定多个候选图像区域;
从该多个候选图像区域,确定目标图像区域。
在一种可能实现方式中,该根据该至少一个图像区域的尺寸特征、形状特征和像素值中的至少一种特征,以及该文字的文字特征,从该至少一个图像区域中,确定多个候选图像区域,包括:
获取该文字的文字特征,该文字特征包括字符的宽度、高度以及字符数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910803929.0/2.html,转载请声明来源钻瓜专利网。





