[发明专利]一种基于级联目标检测的指向文字定位方法在审
申请号: | 202110471210.9 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113378841A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 郑晓隆;赵如彬 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 陆永强 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 目标 检测 指向 文字 定位 方法 | ||
1.一种基于级联目标检测的指向文字定位方法,其特征在于,包括以下步骤:
步骤S1:数据生成及预处理;
步骤S2:创建模型并训练;
步骤S3:训练好网络后,利用实际摄像头拍摄的图像,经预处理后输入网络,得出标志物在图像中的位置和大小,以及指向单词文字坐标和大小;
其中,所步骤S1进一步包括:
步骤S11:合成训练集,采集标志物图像,生成单词字符,把标志物图像随机移动放缩放置到某个单词下面,生成一张训练用的图像;
步骤S12:利用已知的标志物和单词位置大小信息,得到标志物的位置大小信息VMLoc=[xm,ym,wm,hm],分别表示以标志物顶端中心的横纵坐标以及标志物的宽度高度;以及指向单词信息VWLoc=[xw,yw,ww,hw],分别表示指向单词在裁剪图的横纵坐标和大小;
步骤S13:建立训练用的ground truth数据,也即,建立标志物出现位置大小信息,以预测标志物和指向单词两个标签的信息;
所述步骤S2进一步包括:
步骤S21:建立深度神经网络,采用通用的ResNet-18为主干网络,采用级联两级网络输出两个目标的信息:第一级网络输出标志物的概率、位置和大小的回归预测,第二级网络输出指向单词的位置和大小的回归预测;
步骤S22:将原始高分辨率图像缩放到224×224大小的图像输入网络,通过卷积层、池化层和激活层输出最后的标志物信息,第一级输出预测的大小是1×5,用于预测标志物是否出现的概率和标志物的位置大小,再依据标志物,截取感兴趣区域图像输入到第二级网络,输出指向单词文字的位置坐标和大小;
步骤S23:先训练标志物网络,也即第一级网络,采用全图预测出标志物,再依据标志物的位置信息裁剪原始图像送入第二级网络进行指向单词的预测,以让级联的网络都能训练稳定;
步骤S24:把训练样本和目标真实值不断地输入到网络,使用误差反向传播进行每一层网络参数的调整,不断的迭代训练,最终实现收敛,得到网络模型;其中,深度神经网络要实现对两类的样本的预测,每种样本对应的损失也是不同的,所以在最后要融合不同类型的损失,再驱动网络更新,最终是让总损失趋于最小,直到损失稳定不动,网络训练结束。
2.根据权利要求1所述的基于级联目标检测的指向文字定位方法,其特征在于,在所述步骤S24中,
第一级网络总的损失函数有两个部分,第一部分是标志物的预测概率损失,采用交叉熵损失函数:
LossMProb=glog(p)+(1-p)log(1-g)
其中,g是标志物出现的真实概率,值为0或者1,p是标志物的预测概率,其已经经过Softmax函数激活;第二部分是标志物的位置和大小的预测损失,采用Smooth L1损失函数:
其中,x为预测位置大小与真实值差值,Smooth L1损失函数,其对离群点、异常值不敏感,梯度变化相对更小,训练时更平稳;最后总损失函数如下:
LossM=αLossMProb+βLossMLoc
α是对标志物概率损失的权重,β是标志物位置大小损失的权重;
第二级网络是指向单词的预测损失,也是采用Smooth L1损失函数,记为LossWLoc。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110471210.9/1.html,转载请声明来源钻瓜专利网。