[发明专利]一种基于多尺度特征融合的人群计数方法有效
申请号: | 202110238683.4 | 申请日: | 2021-03-04 |
公开(公告)号: | CN112597985B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 黄进;杨旭;张志鸿 | 申请(专利权)人: | 成都西交智汇大数据科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 葛启函 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 特征 融合 人群 计数 方法 | ||
1.一种基于多尺度特征融合的人群计数方法,其特征在于,包括以下步骤:
S1、制作训练数据集:获取场景图像,不同图像中具有不同密集度的人群,对每张图像中人头中心点进行标记,获得实际密度图,将所获得的实际密度图作为训练数据集;
S2、构建神经网络模型:采用骨干网络、特征融合网络和解码模块构成神经网络模型;
所述骨干网络用于提取多尺度特征,采用ResNet50作为骨干网络,输入图像首先通过ResNet的卷积层1,卷积层1由7×7的卷积核与最大池化层构成;然后依次通过layer1、layer2、layer3和layer4层,每个layer都由不同个数的残差块串联而成,每个残差块由三个卷积层和一个跨层直连分支构成,残差块的三个卷积层的卷积核大小依次为1×1、3×3、1×1;layer1到layer4的残差块个数分别是3、4、6、3,layer1到layer4的输出通道数分别是256、512、1024、2048;抽取layer2、layer3和layer4的最后一层输出,得到三个通道数依次加倍、但特征图分辨率依次减半的特征图;
所述特征融合网络包括三个分支,分别对应抽取的三种尺寸的特征图,每个分支包括两个通道,每个通道均由卷积层、归一化层、卷积层、归一化层、激活函数的结构叠加而成,不同的是,一个为单通道输出,另一个为多通道输出;每个分支的单通道输出特征图与多通道输出特征图按元素相乘,获得的结果作为该分支的输出特征图;三个分支的输出特征图进行相加融合,由于三个输出特征图尺寸不同,在融合前使用双线性上采样将小尺寸特征图放大到相邻层特征图的尺寸,然后逐层叠加,获得融合特征图;
所述解码模块用于将融合特征图映射为人群密度图,解码模块包括两个卷积和上采样,具体结构依次为3×3卷积、激活函数、1×1 卷积、激活函数、双线性上采样;其中最后一层的双线性上采样是用于将人群密度图到原始图像尺寸大小,即解码模块最终的输出是单通道密度图,尺寸与输入图像一致,通过对密度图进行积分求和,获得目标人数;
S3、通过步骤S1获得的训练数据集对步骤S2构建的神经网络模型进行训练,损失函数为预测密度与实际密度图的均方误差损;其中N表示训练集中图像的数量,对每一张图片,其通过神经网络预测得到人群密度图,实际密度图为,网络中需要学习的参数为;训练的步骤为:对训练数据集中每一张图片,输入网络预测其人群密度图,计算预测出的人群密度图与实际密度图的均方误差损失,利用梯度下降算法,更新参数,重复该步骤,直到满足迭代停止条件,或者达到预先设定的迭代次数时,停止更新,获得训练好的神经网络模型;所述迭代停止条件为,某一次迭代后,损失值相对上一次迭代得到的值变化较小,即两次迭代值的差小于给定的误差;
S4、将需要进行人群计数的场景图像输入训练好的神经网络模型,获得人群计数结果。
2.根据权利要求1所述的一种基于多尺度特征融合的人群计数方法,其特征在于,在骨干网络中,当输入图像的通道数*高度*宽度为3*256*256时,抽取的三个特征图尺寸分别是512*64*64、1024*32*32和2048*16*16;对应的,特征融合网络中三个分支的输出分别为1024*64*64、1024*32*32和1024*16*16,输出的融合特征图为1024*64*64。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都西交智汇大数据科技有限公司,未经成都西交智汇大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110238683.4/1.html,转载请声明来源钻瓜专利网。