[发明专利]文字识别方法、装置、设备及介质有效
| 申请号: | 201910803929.0 | 申请日: | 2019-08-28 |
| 公开(公告)号: | CN110503159B | 公开(公告)日: | 2022-10-11 |
| 发明(设计)人: | 张水发 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/162;G06V30/18;G06V30/19 |
| 代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 识别 方法 装置 设备 介质 | ||
1.一种文字识别方法,其特征在于,所述方法包括:
获取多个背景图像和文字;
对于每个背景图像,根据所述每个背景图像的深度图中像素点的像素值,确定所述每个背景图像的至少一个图像区域,每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值,所述像素点的像素值表示所述像素点对应背景图像中指定位置与拍摄所述背景图像的相机所在水平面的距离,所述至少一个图像区域为待添加的文字的位置;
获取所述文字的文字特征,所述文字特征包括字符的宽度、高度以及字符数量;获取所述至少一个图像区域的外接矩形的尺寸、形状和所述至少一个图像区域的像素值中的至少一种特征;
对于任一个图像区域,当所述图像区域内的平均像素值小于像素值阈值时,将所述图像区域确定为候选图像区域,以使生成的场景文字图像与真实的场景文字图像相符;
从多个候选图像区域,确定目标图像区域;
将所述文字添加至所述目标图像区域,得到所述每个背景图像对应的场景文字图像;
当获取到待识别的图像时,将所述图像输入基于所述每个背景图像对应的场景文字图像训练得到的文字识别模型中,输出所述图像的文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个背景图像的深度图中像素点的像素值,确定所述每个背景图像的至少一个图像区域,包括:
对于所述每个背景图像的深度图中任意两个相邻像素点,当所述任意两个相邻像素点的像素值之间的差值小于差值阈值时,确定所述两个相邻像素点位于同一图像区域。
3.根据权利要求1所述的方法,其特征在于,所述从多个候选图像区域,确定目标图像区域,包括下述任一项:
从所述多个候选图像区域,随机选择一个候选图像区域作为所述目标图像区域;
获取所述多个候选图像区域与所述文字的匹配度,将所述匹配度最大的候选图像区域作为所述目标图像区域。
4.根据权利要求1所述的方法,其特征在于,所述深度图的获取过程包括:
将所述每个背景图像输入深度图提取模型,输出所述每个背景图像的深度图。
5.根据权利要求4所述的方法,其特征在于,所述深度图提取模型的训练过程包括:
获取多个样本背景图像,每个样本背景图像携带有目标深度图;
将所述多个样本背景图像输入初始模型,输出每个样本背景图像的预测深度图;
获取所述目标深度图和所述预测深度图的损失值;
基于所述损失值,对所述初始模型的模型参数进行调整,直至符合目标条件时,停止调整,得到所述深度图提取模型。
6.根据权利要求1所述的方法,其特征在于,所述文字的获取过程包括下述任一项:
随机生成文字;
根据目标文字特征,生成符合所述目标文字特征的文字,所述目标文字特征包括字符的宽度、高度或字符数量中至少一项;
根据目标规则,生成所述每个背景图像对应的文字,所述目标规则用于体现文字与背景图像之间的关联关系;
从文字库中获取文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910803929.0/1.html,转载请声明来源钻瓜专利网。





