[发明专利]文字识别方法、装置、设备及介质有效

申请号：	201910803929.0	申请日：	2019-08-28
公开（公告）号：	CN110503159B	公开（公告）日：	2022-10-11
发明（设计）人：	张水发	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06V20/62	分类号：	G06V20/62;G06V30/146;G06V30/162;G06V30/18;G06V30/19
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	祝亚男
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字识别方法，其特征在于，所述方法包括：

获取多个背景图像和文字；

对于每个背景图像，根据所述每个背景图像的深度图中像素点的像素值，确定所述每个背景图像的至少一个图像区域，每个图像区域中任意两个相邻像素点的像素值之间的差值小于差值阈值，所述像素点的像素值表示所述像素点对应背景图像中指定位置与拍摄所述背景图像的相机所在水平面的距离，所述至少一个图像区域为待添加的文字的位置；

获取所述文字的文字特征，所述文字特征包括字符的宽度、高度以及字符数量；获取所述至少一个图像区域的外接矩形的尺寸、形状和所述至少一个图像区域的像素值中的至少一种特征；

对于任一个图像区域，当所述图像区域内的平均像素值小于像素值阈值时，将所述图像区域确定为候选图像区域，以使生成的场景文字图像与真实的场景文字图像相符；

从多个候选图像区域，确定目标图像区域；

将所述文字添加至所述目标图像区域，得到所述每个背景图像对应的场景文字图像；

当获取到待识别的图像时，将所述图像输入基于所述每个背景图像对应的场景文字图像训练得到的文字识别模型中，输出所述图像的文字识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个背景图像的深度图中像素点的像素值，确定所述每个背景图像的至少一个图像区域，包括：

对于所述每个背景图像的深度图中任意两个相邻像素点，当所述任意两个相邻像素点的像素值之间的差值小于差值阈值时，确定所述两个相邻像素点位于同一图像区域。

3.根据权利要求1所述的方法，其特征在于，所述从多个候选图像区域，确定目标图像区域，包括下述任一项：

从所述多个候选图像区域，随机选择一个候选图像区域作为所述目标图像区域；

获取所述多个候选图像区域与所述文字的匹配度，将所述匹配度最大的候选图像区域作为所述目标图像区域。

4.根据权利要求1所述的方法，其特征在于，所述深度图的获取过程包括：

将所述每个背景图像输入深度图提取模型，输出所述每个背景图像的深度图。