[发明专利]人群计数网络的训练方法在审
申请号: | 202111449140.3 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114154620A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 赵怀林;梁兰军;周方波 | 申请(专利权)人: | 上海应用技术大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V40/10 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200235 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人群 计数 网络 训练 方法 | ||
本发明提供了一种人群计数网络的训练方法,本发明提供的方法通过多组空洞率不同的金字塔卷积核有效地提取了多尺度信息,解决了人头大小不统一的问题。通过在每一层输出都加上批量归一化,解决了网络深度增加造成难以训练的问题,同时通过残差结构在不增加参数量的情况下进一步提高了网络的深度,具有较高的鲁棒性。
技术领域
本发明涉及一种人群计数网络的训练方法。
背景技术
人群计数和人群定位是当前计算机视觉的一项重要的任务。但是在实际情况中,由于拍摄角度多变造成图片中的人头大小不统一,并且在高密度场景下存在着严重的遮挡、人群分布不均,这些都会增加人群计数和人群定位任务的困难。卷积神经网络的出现为这两项任务的实现提供了一个更好的方法,通常我们希望网络的深度尽可能的深来更好地映射输入与输出的关系,但是随着网络深度的增加,参数量会增大,造成网络训练困难,甚至会造成梯度爆炸或者梯度消失。
发明内容
本发明的目的在于提供一种人群计数网络的训练方法。
为解决上述问题,本发明提供一种人群计数网络的训练方法,包括:
步骤一,进行人群计数时,包括以下步骤:
步骤S1-1,网络的编码器前端采用VGG16_bn的前十层,将样本图片输入到编码器的前端,提取图片的特征信息;
步骤S1-2,将编码器前端的提取出来的图片的特征信息送到编码器的后端,编码器的后端采用五个带有多尺度空洞金字塔卷积聚合模块的残差网络结构,用于增加网络的深度,提取多尺度特征信息;
步骤S1-3,将提取到的多尺度特征信息送到人群计数的解码器中进行三次上采样,最终输出一个通道的估计密度图;
步骤S1-4,根据一个通道的估计密度图计算第一损失函数,根据第一损失函数对网络进行优化,计算人群计数的评估指标。
进一步的,在上述方法中,步骤S1-3之前,还包括生成人群计数的解码器,包括:
人群计数的解码器首先采用一个1×1的卷积核输出密度图,然后进行三次转置卷积,输出与输入图片大小一样的估计密度图。
进一步的,在上述方法中,步骤S1-4中的第一损失函数,采用L2损失,表示为:
其中,N指的是用于批次训练的图片数量,Mi是网络的真实密度图,是网络的估计密度图。
进一步的,在上述方法中,还包括步骤二,进行人群定位时,包括以下步骤:
步骤S2-1,网络的编码器前端采用VGG16_bn的前十层,将样本图片输入到的前端,提取图片的特征信息;
步骤S2-2,将提取出来的图片的特征信息送到编码器的后端,码器的后端采用五个带有多尺度空洞金字塔卷积聚合模块的残差网络结构,用于增加网络的深度,提取多尺度特征信息;
步骤S2-3,将提取到的多尺度特征信息送到人群定位的解码器,输出一张人头像素图和一张背景图,通道数为2;
步骤S2-4,根据一张人头像素图和一张背景图计算第二损失函数,根据第二损失函数对网络进行优化,计算人群定位的评估指标。
进一步的,在上述方法中,步骤S2-4中的第二损失函数,采用交叉熵损失,表示为:
其中,j指的是批次输入的第j张图片,N指的是批次输入的图片数量,p指的是每张图片的第p个像素,m×n是每张图片的像素大小,γ用来增加人头点处的权重,Y(Xp)指第j张图片的第p个像素通过人群定位网络生成的预测标签,取值为0、1,ψ(Xp)是指数据集的真值图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术大学,未经上海应用技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111449140.3/2.html,转载请声明来源钻瓜专利网。