[发明专利]检测识别和检测识别网络的训练方法及装置、设备、介质有效
申请号: | 201711126372.9 | 申请日: | 2017-11-14 |
公开(公告)号: | CN108229303B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 刘学博;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 识别 网络 训练 方法 装置 设备 介质 | ||
1.一种检测识别方法,其特征在于,包括:
将待处理图像输入检测识别网络;所述检测识别网络包括共享网络层、检测网络层和识别网络层;
经所述共享网络层输出所述待处理图像的共享层特征;所述共享层特征用于体现图像中以下特征的至少一个:小物体纹理特征、边缘特征、细节特征;
将所述共享层特征输入所述检测网络层,经所述检测网络层输出所述待处理图像的检测层特征,基于所述检测层特征获得所述待处理图像中包括文字的文本框信息;
基于所述输出的文本框信息获得对应的文本框特征,将所述文本框特征与所述共享网络层输出的共享层特征进行特征融合;
所述识别网络层基于融合后的特征预测文本框中的文字信息。
2.根据权利要求1所述的方法,其特征在于,所述检测层特征包括所述待处理图像中各像素的类别信息;所述类别信息用于通过不同的信息标示相应的像素是否为文字类别;
所述基于所述检测层特征获得所述待处理图像中包括文字的文本框信息,包括:
通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息,所述文本框信息包括:文本框类别信息和文本框位置信息;所述文本框类别信息用于表示所述文本框中是否包含文字;所述文本框位置信息包括所述待处理图像中任一像素点到所述文本框中上下左右的距离和文本框的旋转角度。
3.根据权利要求2所述的方法,其特征在于,所述通过所述待处理图像中各像素的类别信息获取所述待处理图像中包括文字的文本框信息,包括:
基于待处理图像的类别信息将所述待处理图像的长和宽分别缩小到设定比例,根据像素位置关系将所述待处理图像分割为多个矩形框;基于所述矩形框内部各像素的类别信息均标示为文字信息的矩形框获得文本框;
获得所述待处理图像中任一像素点距离所述文本框上下左右的距离信息和所述文本框的旋转角度信息;
基于所述获得的文本框位置信息和文本框类别信息获得所述文本框信息。
4.根据权利要求1-3任一所述的方法,其特征在于,所述基于所述输出的文本框信息获得对应的文本框特征,包括:
对所述文本框信息进行透视变换,从待处理图像分割出文本框,基于所述分割出的文本框生成对应的文本框特征。
5.根据权利要求4所述的方法,其特征在于,所述从待处理图像分割出文本框,包括:
根据文本框位置信息获得所述文本框的左上角坐标;
保持所述文本框的高度和宽度的比例不变,对所述文本框进行缩放,使各所述文本框的高度一致;
基于所述文本框的旋转角度、所述左上角坐标和缩放比例构建透视变换矩阵;
基于所述透视变换矩阵,从所述待处理图像中分割出所述文本框。
6.根据权利要求5所述的方法,其特征在于,所述基于所述透视变换矩阵,从所述待处理图像中分割出所述文本框,包括:
对所述透视变换矩阵与所述待处理图像执行矩阵乘法操作,得到一个与所述待处理图像大小相同的分割图像,每个所述分割图像仅在左上角包括一个文本框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711126372.9/1.html,转载请声明来源钻瓜专利网。