[发明专利]一种衣着识别方法、系统、介质及设备在审
| 申请号: | 202210721153.X | 申请日: | 2022-06-24 |
| 公开(公告)号: | CN115100681A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 黄斐然;李志颖;陈唯彬;赵容;吴永东;陈志彬 | 申请(专利权)人: | 暨南大学 |
| 主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
| 地址: | 510632 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 衣着 识别 方法 系统 介质 设备 | ||
1.一种衣着识别方法,其特征在于,包括下述步骤:
获取多场景下的摄像头视频,划分为黑白视频以及非黑白视频,将黑白视频通过着色网络进行颜色的填充,将着色后的视频与非黑白视频整合得到全彩色的图像数据库;
对全彩色的图像数据库进行解帧,对有效数据图片进行标注,构建衣着数据集;
基于YOLOv5模型构建衣着识别网络,设有依次连接的主干网络层、Neck网络层和输出层;
在主干网络层尾部增加坐标注意力模块,坐标注意力模块采用坐标注意力机制获取特征信息;
在Neck网络层将YOLOv5模型中的拼接模块替换为融合多尺度特征融合算法的Concat_bifpn模块,用于融合浅层网络跟深层网络的特征,通过预设可学习的权重学习不同输入特征的重要性;
Neck网络层设有多个Concat_bifpn模块,包括第一融合模块、第二融合模块、第三融合模块、第四融合模块、第五融合模块和第六融合模块;输出层设有多个预测头,包括第一预测头、第二预测头、第三预测头和第四预测头;
第一融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第五融合模块;
第二融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至第四融合模块;
第三融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第一预测头,输出第一尺度特征;
第四融合模块将自身上一层输出、第二融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第二预测头,输出第二尺度特征;
第五融合模块将自身上一层输出、第一融合模块下一层输出以及主干网络层输出进行融合,融合后经过下一层输出至输出层的第三预测头,输出第三尺度特征;
第六融合模块将自身上一层输出与主干网络层输出进行融合,融合后经过下一层输出至输出层的第四预测头,输出第四尺度特征;
坐标注意力模块经过卷积层和上采样层后输出特征至第一融合模块;
基于衣着数据集训练衣着识别网络;
进行复合检测,基于YOLOv5模型对测试集中的人物进行识别,裁剪提取得到人像结果集,将人像结果集输入衣着识别网络进行识别,得到衣着识别结果图像集。
2.根据权利要求1所述的衣着识别方法,其特征在于,所述着色网络包括实例着色网络和全图像着色网络,分别进行实例着色和全图像着色,实例着色网络和全图像着色网络对应层级进行端到端训练;
实例着色网络和全图像着色网络提取得到实例图像特征和全图像特征,经过多层卷积层训练得到全图像权重与实例权重,对实例图像特征和实例权重进行结合形成全图像特征大小,对全图像特征和每组实例图像特征分别按照对应权重进行加权融合,获得着色后的图像,进而得到着色后的视频图像。
3.根据权利要求1所述的衣着识别方法,其特征在于,所述坐标注意力模块采用坐标注意力机制获取特征信息,具体计算过程为:
坐标注意力模块对每个输入特征从维度h和 w分解,分解后的张量分别经过全局池化处理,生成张量Xh和张量Xw,在卷积块中输入连接的张量Xh和Xw生成一个编码的Y,具体表示为:
其中,表示连接Xw和Xh,*表示卷积运算,G和f分别表示归一化和激活函数,W表示卷积滤波器;
再次拆分Y得到和,具体表示为:
;
其中,
卷积并激活和,最终输出为:
其中,F表示卷积,表示激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210721153.X/1.html,转载请声明来源钻瓜专利网。





