[发明专利]检测识别和检测识别网络的训练方法及装置、设备、介质有效
申请号: | 201711126372.9 | 申请日: | 2017-11-14 |
公开(公告)号: | CN108229303B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 刘学博;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 识别 网络 训练 方法 装置 设备 介质 | ||
本发明实施例公开了一种检测识别和检测识别网络的训练方法及装置、设备、介质,其中,检测识别方法包括:将待处理图像输入检测识别网络;所述检测识别网络包括共享网络层、检测网络层和识别网络层;经所述共享网络层输出所述待处理图像的共享层特征;将所述共享层特征输入所述检测网络层,经所述检测网络层输出所述待处理图像的检测层特征,基于所述检测层特征获得所述待处理图像中包括文字的文本框信息;将所述共享层特征和文本框信息输入所述识别网络层,经所述识别网络层输出所述文本框中的文字内容。本发明实施例减少了重复对图像进行特征提取,提高了处理效率;提高了文字检测和识别的效率和速度。
技术领域
本发明涉及计算机视觉技术,尤其是一种检测识别和检测识别网络的训练方法及装置、设备、介质。
背景技术
自然场景下的文本检测与识别是图像理解和图像恢复领域的重要问题。精确的文本检测和识别能够用于很多问题,例如大数据集下的图像搜索,自动翻译,盲人引导,机器人导航等。
然而自然场景下的文本检测和识别是很具挑战性的,不同的背景场景,低分辨率,不同字体,不同光照条件,不同大小尺度,不同倾斜方向,模糊等因素,都使得该问题变得十分复杂和困难。
发明内容
本发明实施例提供一种文字识别技术方案。
根据本发明实施例的一个方面,提供的一种检测识别方法,包括:
将待处理图像输入检测识别网络;所述检测识别网络包括共享网络层、检测网络层和识别网络层;
经所述共享网络层输出所述待处理图像的共享层特征,所述共享层特征用于体现图像中以下特征的至少一个:小物体纹理特征、边缘特征、细节特征;
将所述共享层特征输入所述检测网络层,经所述检测网络层输出所述待处理图像的检测层特征,基于所述检测层特征获得所述待处理图像中包括文字的文本框信息;
将所述共享层特征和文本框信息输入所述识别网络层,经所述识别网络层输出所述文本框中的文字内容。
在基于本发明上述方法的另一个实施例中,所述检测层特征包括所述待处理图像中各像素的类别信息;所述类别信息用于通过不同的信息标示相应的像素是否为文字类别;
所述基于所述检测层特征获得所述待处理图像中包括文字的文本框信息,包括:
通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息,所述文本框信息包括:文本框类别信息和文本框位置信息;所述文本框类别信息用于表示所述文本框中是否包含文字;所述文本框位置信息包括所述待处理图像中任一像素点到所述文本框中上下左右的距离和文本框的旋转角度。
在基于本发明上述方法的另一个实施例中,所述通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息,包括:
基于待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例,根据像素位置关系将所述待处理图像分割为多个矩形框;基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框;
获得所述待处理图像中任一像素点距离所述文本框上下左右的距离信息和所述文本框的旋转角度信息;
基于所述获得的文本框位置信息和文本框类别信息获得所述文本框信息。
在基于本发明上述方法的另一个实施例中,所述将所述共享层特征和文本框信息输入所述识别网络层,经所述识别网络层预测所述文本框中的文字信息,包括:
基于所述输出的文本框信息获得对应的文本框特征,将所述文本框特征与所述共享网络层输出的共享层特征进行特征融合;
所述识别网络层基于融合后的特征预测所述文本框中的文字信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711126372.9/2.html,转载请声明来源钻瓜专利网。