[发明专利]一种高效的类手-文混合目标检测方法在审
| 申请号: | 202111620882.8 | 申请日: | 2021-12-28 |
| 公开(公告)号: | CN114359885A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 王浩;周华兵;张彦铎;卢涛;鲁统伟;李迅;王燕燕 | 申请(专利权)人: | 武汉工程大学;武汉逸锦科技有限公司 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06N3/04;G06N3/08 |
| 代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 肖惠 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 高效 混合 目标 检测 方法 | ||
本发明提供了一种高效的类手‑文混合目标检测方法,通过设计的混合目标检测模型在已经具备手指、笔等类柱体物和目标文本的图像数据集进行训练,平衡地划分训练的正负样本,使深度网络模型只对图像中同时包含类手指指尖和文本字词的区域感兴趣,降低深度网络模型在图像其他区域所生成的预测框的置信度,从而在现实阅读场景中做到模型只对手指所指向的文本进行检测,而忽略当前页的其他文本字词,避免了对图像中手指、笔等类柱体物和文字的两次目标检测与坐标变换的过程,优化了检测的实时性,简化了检测的思路。
技术领域
本发明属于深度学习技术领域,具体涉及一种高效的类手-文混合目标检测方法。
背景技术
目标检测是技术人工智能领域飞速发展的一个分支。常规目标检测的任务就是找出图像中所有感兴趣的目标,确定它们的类别和位置,是计算机视觉领域的核心问题之一。
在实际阅读场景中,所阅读到晦涩难懂的文本字词时,需要进行查证和学习。结合到人工智能领域的方法,对阅读到的文本进行手指标记目标检测即可完成这些字词的查证和学习。如果不对目标文本进行标记,目前的文本检测方法均会检测当前阅读页面的所有文本,因此利用手指、笔等类柱体物来指出或标记目标文本,使其变为类手-文混合目标检测,实现现实场景中所需要的要求。
现有对类手指和类手指所指向的文本进行目标检测的方法均是基于深度学习网络来分别在同一图像上对类手指尖端和文本分别进行检测,然后将检测得到得两者坐标信息进行比对,然后通过坐标仿射变换使两者的坐标信息实现同步、重合,从而在原输入图像中检测框选出手指所指文本;不仅过程复杂繁琐,而且对目标检测算法要求较高,导致其在实际场景中的检测实时性不强。
发明内容
本发明要解决的技术问题是:提供一种高效的类手-文混合目标检测方法,用于同时检测图像的类柱体物和目标文本。
本发明为解决上述技术问题所采取的技术方案为:一种高效的类手-文混合目标检测方法,包括以下步骤:
S1:采用图像合成及数据增强的方式制备包括手指、笔的类柱体物指向文本的类手-文混合目标数据集,划分类手-文混合目标数据集中图像的正样本和负样本,对图像的目标区域标注真实框,记录真实框的坐标信息;
S2:设计适用于类手-文混合目标检测的算法搭建深度神经网络模型;以深度神经网络模型输出的预测框与真实框之间的面积交并比为预设阈值,用于平衡划分训练正负样本;
S3:采用类手-文混合目标数据集迭代训练深度神经网络模型,从图像数据中提取特征并且按照给定的目标检测原理和预设阈值回归得到与真实框相近的混合目标检测候选框;
S4:采用训练后调整好参数权重的深度神经网络模型对现实阅读场景下的类手-文验证集和测试集进行类手-文混合目标的检测。
按上述方案,所述的步骤S1中,具体步骤为:
S11:采用工业摄像头或相机在不同实体阅读场景中拍摄采集文本图像,或从现有的文本图像数据集中选取符合目标要求的文本图像;
S12:采用Fingers-手指数据集中的手指图像,或实景拍摄包括笔、手指的类柱体物图像;类柱体物图像的背景为简洁背景用于突出且使类柱体物图像易于辨认;
S13:将类柱体物图像合成到文本图像中得到合成类手-文图像;合成类手-文图像包括文本和类柱体物指向文本的特征规范,且表征类柱体物指向的文本在图像中的位置;
S14:划分合成类手-文图像的正样本和负样本;正样本为包括类手-文混合目标的图像区域;负样本为包括干扰对象、不包括类手-文混合目标的图像区域;
S15:对合成类手-文图像的适当大小区域标注真实框,标注方法包括:根据文本图像改动的合成区域的所在位置信息自动生成并记录保存需要标注的真实框坐标位置信息;或采用标注工具LabelImg人工标注真实框坐标位置信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学;武汉逸锦科技有限公司,未经武汉工程大学;武汉逸锦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111620882.8/2.html,转载请声明来源钻瓜专利网。





