[发明专利]一种基于焦点损失函数的自然场景下文字检测定位方法和装置有效
| 申请号: | 201810729838.2 | 申请日: | 2018-07-05 |
| 公开(公告)号: | CN109117836B | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 操晓春;田晓玮;伍蹈;代朋纹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06V10/25 | 分类号: | G06V10/25 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 焦点 损失 函数 自然 场景 文字 检测 定位 方法 装置 | ||
1.一种基于焦点损失函数的自然场景下文字检测定位方法,其特征在于,包括以下步骤:
1)根据标注的自然场景图片的数据集,构造文字以及背景的二分类真值图以及文字像素与其所在文本框对应关系的五维真值图;
2)基于FCN网络构造文字检测网络,所述文字检测网络的损失函数包含焦点损失函数和回归文本框的损失函数;
3)利用构造的所述二分类真值图和所述五维真值图对所述文字检测网络进行训练;所述文字检测网络采用所述焦点损失函数逐像素进行分文字、背景的二分类,并采用所述回归文本框的损失函数对像素所在文本框的高度、宽度以及倾斜角度进行回归;
4)将待检测的自然场景图片输入训练完成的文字检测网络,实现文字的检测定位;
其中,步骤1)首先将现有标注调整为二分类标注,文字区域的像素设为1,背景区域的像素设为0,构造出文字以及背景的二分类真值图;然后计算出像素与最小包围的矩形框的四边界距离以及所在文本框同水平方向夹角的五维真值图;
其中,步骤2)所述焦点损失函数的公式如下:
其中w和h分别指的是预测二分类图的宽度和高度,Y*指的是给定的真实值,αt是用于平衡正负样本的参数,γ是用于平衡难易样本的参数,pt指的是二分类网络预测值;pt和αt计算公式如下:
其中p指的在该像素下网络给出的预测值,y指的在该像素的真实值;
其中,步骤2)所述回归文本框的损失函数定义如下:
Lreg=LIoU+ηLθ
其中LIoU指的是回归的文本框与真实文本框之间的重叠度,Lθ指的是预测的倾角与真实倾角之间的损失,η是平衡参数;LIoU和Lθ的计算方式如下:
其中R*分别指预测的文本框和与之对应的标注文本框,θ*分别指预测的倾斜角度和与之对应的标注倾斜角度,常数c用于约束Lθ的上界;
其中,步骤4)包括以下步骤:
将待检测的自然场景图片输入文字检测网络得到二分类结果和回归结果;
对二分类图挑选大于阈值的文字像素区域,根据文字像素区域和对应的回归结果,使用局部的极大值抑制算法去除多余文本框。
2.如权利要求1所述的方法,其特征在于,步骤2)使用ResNet-50作为基础卷积神经网络结构,将多个卷积层结果进行级联,构造文字检测网络。
3.如权利要求2所述的方法,其特征在于,步骤2)所述文字检测网络中,由conv5_c的结果做反池化操作后同conv4_f的结果进行合并后经3*3和1*1两个卷积操作后得到f1网络层;由f1的结果做反池化操作后同conv3_d的结果进行合并后经3*3和1*1两个卷积操作后得到f2网络层;由f2的结果做反池化操作后同conv2_c的结果进行合并后经3*3和1*1两个卷积操作后得到f3网络层;f3经过两个不同的3*3卷积操作后得到平行的两个网络层f4_1和f4_2,分别用于计算两个损失函数,共同训练。
4.如权利要求1所述的方法,其特征在于,步骤4)在将待检测的自然场景图片输入文字检测网络之前,进行以下步骤:
将待检测的自然场景图片进行等比例缩小至长边2400p。
5.一种采用权利要求1~4中任一权利要求所述方法的基于焦点损失函数的自然场景下文字检测定位装置,其特征在于,包括:
真值图构造模块,负责根据标注的自然场景图片的数据集,构造文字以及背景的二分类真值图以及文字像素与其所在文本框对应关系的五维真值图;
文字检测网络构造模块,负责基于FCN网络构造文字检测网络,所述文字检测网络的损失函数包含焦点损失函数和回归文本框的损失函数;
文字检测网络训练模块,负责利用构造的所述二分类真值图和所述五维真值图对所述文字检测网络进行训练;所述文字检测网络采用所述焦点损失函数逐像素进行分文字、背景的二分类,并采用所述回归文本框的损失函数对像素所在文本框的高度、宽度以及倾斜角度进行回归;
文字的检测定位模块,负责将待检测的自然场景图片输入训练完成的文字检测网络,实现文字的检测定位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810729838.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像处理装置和方法
- 下一篇:感兴趣区域确定方法和设备





