[发明专利]一种基于多注意力神经网络的细粒度图像识别方法及系统有效
| 申请号: | 202110170873.7 | 申请日: | 2021-02-08 |
| 公开(公告)号: | CN112906701B | 公开(公告)日: | 2023-07-14 |
| 发明(设计)人: | 彭德光 | 申请(专利权)人: | 重庆兆光科技股份有限公司 |
| 主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/762;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/048;G06N3/084 |
| 代理公司: | 重庆渝之知识产权代理有限公司 50249 | 代理人: | 柴社英 |
| 地址: | 400000 重庆市璧山区璧泉街道*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 神经网络 细粒度 图像 识别 方法 系统 | ||
本发明提出一种基于多注意力神经网络的细粒度图像识别方法及系统,包括:从全尺寸图像中获取对应不同局部特征位置的多个零件掩膜图像;调整所述零件掩膜图像中对应零件边框尺寸,基于调整后的所述零件掩膜图像从所述全尺寸图像中获取零件图像;对所述零件图像对应的零件特征经过分类和加权处理,获取所述全尺寸图像的识别结果;本发明可有效提高细粒度特征的识别准确性。
技术领域
本发明涉及领域,尤其涉及一种基于多注意力神经网络的细粒度图像识别方法及系统。
背景技术
目前图像识别领域主要有传统方法和深度学习方法,传统方法主要通过依赖人工注释边框、部分注释来实现定位和识别从属类别。现有技术的缺点:1.人类的大量参与使得零件定义和注释变得昂贵和主观,这显然不是所有细粒度图像识别任务的最优选择。2.利用注意力机制来生成没有零件标签/注释的attention masks,并从attention masks中提取相应的图像部分。3.使用固定大小的矩形裁剪图像以提取关注部分,而不管要识别的对象的大小如何,为后续特征表达造成坏的影响。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于多注意力神经网络的细粒度图像识别方法及系统,主要解决现有方法人工参与成本高且识别准确性不足的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于多注意力神经网络的细粒度图像识别方法,包括:
从全尺寸图像中获取对应不同局部特征位置的多个零件掩膜图像;
调整所述零件掩膜图像中对应零件边框尺寸,基于调整后的所述零件掩膜图像从所述全尺寸图像中获取零件图像;
对所述零件图像对应的零件特征经过分类和加权处理,获取所述全尺寸图像的识别结果。
可选地,从全尺寸图像中获取对应不同局部特征位置的多个零件掩膜图像,包括:
获取所述全尺寸图像对应的特征图,并将所述特征图输入多个信道,基于特征的位置向量进行聚类,得到所述零件掩膜图像。
可选地,构建剪裁模块,通过所述剪裁模块调整所述零件掩膜图像中对应零件边框尺寸。
可选地,所述剪裁模块包括全连接层,将所述零件掩膜图像输入所述全连接层,根据设置的尺寸调整所述零件边框尺寸。
可选地,所述尺寸调整方式表示为:
wa=wf+dw
ha=hf+dh
其中,wf和hf为所述零件腌膜图像中零件区域的尺寸;wa和ha分别为设置的边框宽度和高度;dw和dh分别对应宽度和高度的偏移量,作为为所述全连接层的输出。
可选地,对所述零件图像对应的零件特征经过分类和加权处理,包括:
通过卷积层提取所述零件图像的零件特征向量,并将所述零件特征向量输入多个全连接层,通过与所述全连接层连接的分类器的分类输出概率设置所述零件特征向量的权重。
可选地,构建融合损失函数,根据所述融合损失函数经过迭代学习更新网络参数。
可选地,所述融合损失函数表示为:
Lf=Lsort(ωa,ωb)+Lfcls(Y,Y*)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆兆光科技股份有限公司,未经重庆兆光科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110170873.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:GIS汇控信息展示系统
- 下一篇:磁性线性位置感应器





