[发明专利]人群计数网络的训练方法在审
申请号: | 202111449140.3 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114154620A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 赵怀林;梁兰军;周方波 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V40/10 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人群 计数 网络 训练 方法 | ||
1.一种人群计数网络的训练方法,其特征在于,包括:步骤一,进行人群计数时,包括以下步骤:
步骤S1-1,网络的编码器前端采用VGG16_bn的前十层,将样本图片输入到编码器的前端,提取图片的特征信息;
步骤S1-2,将编码器前端的提取出来的图片的特征信息送到编码器的后端,编码器的后端采用五个带有多尺度空洞金字塔卷积聚合模块的残差网络结构,用于增加网络的深度,提取多尺度特征信息;
步骤S1-3,将提取到的多尺度特征信息送到人群计数的解码器中进行三次上采样,最终输出一个通道的估计密度图;
步骤S1-4,根据一个通道的估计密度图计算第一损失函数,根据第一损失函数对网络进行优化,计算人群计数的评估指标。
2.如权利要求1所述人群计数网络的训练方法,其特征在于,步骤S1-3之前,还包括生成人群计数的解码器,包括:
人群计数的解码器首先采用一个1×1的卷积核输出密度图,然后进行三次转置卷积,输出与输入图片大小一样的估计密度图。
3.如权利要求1所述人群计数网络的训练方法,其特征在于,步骤S1-4中的第一损失函数,采用L2损失,表示为:
其中,N指的是用于批次训练的图片数量,Mi是网络的真实密度图,是网络的估计密度图。
4.如权利要求1所述人群计数网络的训练方法,其特征在于,还包括步骤二,进行人群定位时,包括以下步骤:
步骤S2-1,网络的编码器前端采用VGG16_bn的前十层,将样本图片输入到的前端,提取图片的特征信息;
步骤S2-2,将提取出来的图片的特征信息送到编码器的后端,码器的后端采用五个带有多尺度空洞金字塔卷积聚合模块的残差网络结构,用于增加网络的深度,提取多尺度特征信息;
步骤S2-3,将提取到的多尺度特征信息送到人群定位的解码器,输出一张人头像素图和一张背景图,通道数为2;
步骤S2-4,根据一张人头像素图和一张背景图计算第二损失函数,根据第二损失函数对网络进行优化,计算人群定位的评估指标。
5.如权利要求4所述的人群计数网络的训练方法,其特征在于,步骤S2-4中的第二损失函数,采用交叉熵损失,表示为:
其中,j指的是批次输入的第j张图片,N指的是批次输入的图片数量,p指的是每张图片的第p个像素,m×n是每张图片的像素大小,γ用来增加人头点处的权重,Y(Xp)指第j张图片的第p个像素通过人群定位网络生成的预测标签,取值为0、1,ψ(Xp)是指数据集的真值图。
6.如权利要求4所述的人群计数网络的训练方法,其特征在于,步骤S2-3之前,还包括生成人群定位的解码器,包括:
人群定位的解码器先经过一个转置卷积调整输出的大小为输入图像的1/4,然后通过一个1×1的卷积核输出一个人头像素图和一个背景图,最后通过两次双线性插值调整,输出与输入图像大小一样的定位图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111449140.3/1.html,转载请声明来源钻瓜专利网。