[发明专利]一种基于多层级特征融合的人群计数方法有效
| 申请号: | 202010284030.5 | 申请日: | 2020-04-13 |
| 公开(公告)号: | CN111488834B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 霍占强;路斌;宋素玲;雒芬;乔应旭 | 申请(专利权)人: | 河南理工大学 |
| 主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/80;G06V10/82;G06N3/0464 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 454000 河南*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多层 特征 融合 人群 计数 方法 | ||
1.一种基于多层级特征融合的人群计数方法,其特征在于,该方法具体包括以下步骤:
步骤S1:对获取的人群图像预处理,并利用标注信息产生对应的人群密度图,具体方式如下:
步骤S11:对采集到的人群图像进行中心化处理,具体方式为,对图像R,G,B三个通道上元素减去通道对应的平均值,然后除以通道对应的标准差,R,G,B三通道对应的平均值为(0.485,0.456,0.406),对应标准差为(0.229,0.224,0.225);
步骤S12:对提供的标注信息生成位置矩阵,具体方式为,创建一个与对应图像分辨率大小相同的元素全为0的矩阵,依据标注信息提供的坐标将矩阵对应位置的元素设置为1;
步骤S13:将中心化后的人群图像以及对应的位置矩阵进行随机裁剪固定大小的图像块和矩阵,具体实施例中,裁剪大小为400×400;
步骤S14:将位置矩阵通过高斯核卷积生成对应的人群密度图,具体方式为,生成两个一维高斯卷积核,其中μ=15,σ=4,将其中一个高斯卷积核转置,并与另外一个相乘,得到二维高斯卷积核,将二维高斯卷积核与位置矩阵中大小为1的元素进行卷积运算,生成人群密度图;
步骤S15:将步骤S14生成的密度图下采样为200×200分辨率大小,具体方式为,将2×2参数都为1的卷积核,以步幅为2对密度图进行卷积运算;
步骤S2:构建多层级特征融合的人群计数网络,具体方式如下:
步骤S21:搭建不包含全连接层的VGG16网络;
步骤S22:搭建通道域注意力模块,具体方式为,搭建通道域上全局平均池化层,将输入特征X池化为1×1×C的特征,在池化层后增加两个全连接层,包含神经元数量分别为C/4,C,在两个全连接层后搭建一层Sigmoid激活层,将激活层输出与输入特征X进行元素相乘操作,得到通道域注意力模块的输出;
步骤S23:将步骤S21搭建的VGG16网络的第五层至第四层的输出特征X50,X40进行特征融合,具体方式为,将第五层输出特征X50进行上采样操作(上采样层的放大因子都为2),将上采样后的特征与第四层输出特征X40在通道域上进行拼接操作,将拼接后的特征输入通道域注意力模块,将通道域注意力模块的输出输进由两个3×3通道数为256的卷积层组成的卷积块,得到卷积块的输出特征X41;
步骤S24:将步骤S21搭建的VGG16网络的第四层至第三层的输出特征X40,X30,以及步骤S23得到的特征X41进行特征融合,具体方式为,将特征X40进行上采样,并将上采样后的结果与特征X30在通道域上进行拼接操作,将拼接后的特征输入两个3×3通道数为128的卷积层组成的卷积块,得到特征X31,将特征X41进行上采样操作得到特征X32,将特征X31与特征X32在通道域上进行拼接操作,将拼接后的特征输入通道域注意力模块,将通道域注意力模块的输出输进由两个3×3通道数为128的卷积层组成的卷积块,得到卷积块的输出特征X33;
步骤S25:将步骤S21搭建的VGG16网络的第三层至第二层的输出特征X30,X20,以及步骤S24得到的特征X31,X33进行特征融合,具体方式为,将特征X30进行上采样操作,并将上采样后的特征与特征X20在通道域上进行拼接操作,将拼接后的特征输入两个3×3通道数为64的卷积层组成的卷积块,得到特征X21,将特征X31进行上采样操作得到特征X22,将特征X21与特征X22在通道域上进行拼接操作,将拼接后的特征输入两个3×3通道数为64的卷积层组成的卷积块,得到卷积块的输出特征X23,将特征X33进行上采样操作得到特征X24,将特征X23与特征X24在通道域上进行拼接操作,将拼接后的特征输入通道域注意力模块,将通道域注意力模块的输出输进两个3×3通道数为64的卷积层和一个3×3通道数为32的卷积层组成的卷积块,将卷积块的输出输进一个1×1通道数为1的卷积层,完成多层级特征融合的人群计数网络的构建;
步骤S3:初始化网络权重参数,具体方式为,对于步骤S2获得的人群计数网络,其特征提取器VGG16的初始值为不包含全连接层的VGG16的ImageNet的分类权重,其他的卷积层和全连接层都采用正太分布初始化参数,其中:μ=0,σ=0.01;
步骤S4:将步骤S1预处理后的人群图像和人群密度图输入网络,完成前向传播;
步骤S5:将步骤S4前向传播的结果与输入网络的真实密度图计算损失,更新模型参数,具体方式如下:
步骤S51:计算前向传播的结果与真实密度图的均方差损失LMSE,具体方式为:
其中,N代表一次前向传播的输入数据的样本数,N=8,代表当前第i个数据前向传播计算的密度图,代表当前第i个数据的真实密度图;
步骤S52:将步骤S51计算得到的损失LMSE利用随机梯度下降法更新模型参数;
步骤S6:迭代步骤S4,S5到指定次数,具体方式为,迭代次数为50次;
步骤S7:获取人群密度图,得到估计人数,具体方式为,将模型计算的人群密度图中的所有像素求和得到人群图像中包含的人数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010284030.5/1.html,转载请声明来源钻瓜专利网。





