[发明专利]图像目标检测方法与装置在审
申请号: | 202211053451.2 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115331081A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 方杰民;王兴刚;刘文予 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/766 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 目标 检测 方法 装置 | ||
本发明公开一种图像目标检测方法:使用Transformer网络作为骨干网络从图像提取多分辨率特征图;将多分辨率特征图输入到跨尺度注意力的特征金字塔网络中;在特征金字塔网络中,从输入的小分辨率特征开始,利用跨尺度注意力模块,逐步往大分辨率进行特征的融合及重组,特征从小分辨率到大分辨率被累积融合;通过融合后的特征将被进一步送入后续处理及预测模块,进行检测框的回归和类别的预测,基于目标数据集训练上述跨尺度注意力的特征金字塔网络直至收敛;利用训练得到的跨尺度注意力的特征金字塔网络对待检测图片进行检测框的回归和类别的预测。提升最终目标检测的性能。本发明还提供了相应的图像目标检测装置。
技术领域
本发明属于深度学习和计算机视觉技术领域,更具体地,涉及一种图像目标检测方法与装置。
背景技术
目标检测是计算机视觉领域最基础且最重要的任务之一,其通常利用深度神经网络对视觉数据进行特征提取和建模,并预测目标物体的对应位置和类别。当前的深度学习方法试图解决作为分类问题或回归问题或综合两者的目标检测任务。
视觉图像具有较高的复杂性和多样性,目标检测通常需要捕捉到多种尺度的物体信息。为了更好的建模各个尺度的目标特征,一种特征金字塔网络(FPN,Feature PyramidNetworks)被广泛运用于目标检测的框架中。FPN将骨干网络(Backbone Networks)提取到的位于各个分辨率的特征作为输入,并进行融合。低分辨率的特征具有更强的语义但是缺乏细节,而高分辨率的特征细节充分但是语义较弱。FPN将低分辨率特征进行插值,并叠加到高分辨率特征以进行融合。这种做法从多个层级来丰富语义信息,并使得视觉表征对多尺度的物体更加敏感。
Transformer网络最早被提出并用于自然语言处理(NLP,Natural LanguageProcessing)的各个场景和任务,并取得了极大的成功。近年来,Transformer也开始被广泛用于图像分类、语义分割、目标检测等各个视觉任务中,并取得了非常强劲的性能,一定程度上超越了以往在视觉任务上运用更多的卷积神经网络(CNN,Convolutional NeuralNetworks)。其中,自注意力(self-attention)机制是Transformer网络的核心组件,其通过度量特征与特征之间的响应并根据响应值重组特征,从而自动化建立特征间的关系。现有基于传统FPN技术的检测方法通常直接通过对特征进行插值并相加来实现跨尺度特征的融合,其对具有复杂尺度物体的建模能力仍然有限。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种图像目标检测方法与装置,通过引入具有跨尺度注意力机制的FPN,来建模对尺度更鲁棒且表达能力更强的物体特征,提升最终目标检测的性能。
为实现上述目的,按照本发明的一个方面,提供了一种图像目标检测方法,包括如下步骤:
步骤一:使用Transformer网络作为骨干网络从图像提取多分辨率特征图;
步骤二:将步骤一中的多分辨率特征图输入到跨尺度注意力的特征金字塔网络中;
步骤三:在特征金字塔网络中,从步骤二中输入的小分辨率特征开始,利用跨尺度注意力模块,逐步往大分辨率进行特征的融合及重组,特征从小分辨率到大分辨率被累积融合;
步骤四:通过步骤三融合后的特征将被进一步送入后续处理及预测模块,进行检测框的回归和类别的预测,基于目标数据集训练上述跨尺度注意力的特征金字塔网络直至收敛;
步骤五:利用训练得到的跨尺度注意力的特征金字塔网络对待检测图片进行检测框的回归和类别的预测。
本发明的一个实施例中,所述步骤三中跨尺度注意力模块通过以下步骤实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211053451.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防溢乳抑菌型哺乳内衣
- 下一篇:发动机连杆总成快拆装备
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序