[发明专利]一种高准确率的基于卷积神经网络的人体多部位识别方法在审
申请号: | 201610056618.9 | 申请日: | 2016-01-27 |
公开(公告)号: | CN105740892A | 公开(公告)日: | 2016-07-06 |
发明(设计)人: | 刘波;张恒瑜 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 准确率 基于 卷积 神经网络 人体 部位 识别 方法 | ||
1.一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:该方法包括SelectiveSearch图像分割算法、深层卷积神经网络、基于深层特征训练出的支持向量机和三种空间几何约束;当输入一幅RGB图像,首先通过SelectiveSearch算法生成大约2000个候选边框,然后通过卷积神经网络计算这些候选边框的全相连层特征,之后通过全相连层特征进一步计算其支持向量机的分类得分,再然后假定每一个候选边框都为人体整体边框并通过空间几何约束计算其相应的部位边框和该边框组合的得分,最后通过非最大化抑制和阈值的限制获得最终的边框组合并显示出来。
2.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的SelectiveSearch算法是一种基于分层区域合并的图像分割方法,本发明中采用SelectiveSearch的快速模式,平均每张图片会产生大约2000个尺寸不一的候选区域边框,此算法的优点是采用多元策略集以便适应几乎所用情况将小区域合并在一起形成分层区域合并的边框范围,另一个优点是计算速度快;其中,区域的合并方式是有层次的、类似于哈夫曼树的构造过程,通过使用EfficientGraph-BasedImageSegmentation的方法获取原始分割区域并通过计算相似度不断对区域进行合并;计算相似度时该算法还充分从颜色、纹理、大小等方面考虑,并将以上方面进行加权得分。
3.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的深度卷积神经网络采用的深度卷积神经网络结构,输入为224*224的RGB图像,是将候选区域进行缩放填充得到的,然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果;值得一提的是该网络结构采用了Max(x,0)代替原有激活函数极大的提高了计算速度,并且采用了dropout的方法随机舍弃不必要的值来降低过拟合;训练时,将整个人体和各个部位当作不同的类别处理并通过无监督的大数量级的数据的训练和有监督的相对小数量级的数据的权值微调,最终训练出的深度卷积神经网络分类器有了较高的分类准确率,为下一步识别定位奠定了基础。
4.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的支持向量机分类器是通过输入深度卷积神经网络的全相连层FC7的图像特征和该图像类别训练出的;相较原有卷积神经网络只输出分类类别,通过训练该支持向量机获得分类得分,这为后续在得分基础上添加几何约束奠定了基础。
5.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的空间像素范围约束是当假设该候选边框为整个人体边框,那么其相应的部位边框一定会在其附近并且不超过一定数量的像素,本发明中通过五折交叉检验确定这个像素数量,即将训练数据分成五份,每次拿出其中一份作为测试数据其余四份作为训练数据,重复进行五次获得最终结果;在测试时通过限定这种空间像素的位置关系将会得到很多基于整体理解的边框组合。
6.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的混合高斯模型约束是根据人体之间动作、姿态的相似性获得的;在训练时,根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型;测试时,给定得分最高的若干主边框,通过尝试不同部位边框的混合高斯模型得分,选出得分超过阈值的边框组合,本约束是建立在空间像素约束之上的方法。
7.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:所述的K个近邻约束是建立在混合高斯模型的基础上的约束,通过K个近邻算法查找与测试图片中假设为整体的边框最相近的K个训练集中的整体边框,然后获取该K个训练边框的混合高斯模型,分别用这些混合高斯模型参数去拟合测试边框,最终获得得分超过阈值的边框组合。
8.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法,其特征在于:采用深度卷积神经网络结构,输入为224*224的RGB图像,然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果;其中激活函数由之前的f(x)=tanh(x)或者f(x)=(1+e-x)-1变为f(x)=max(0,x),极大的提升了卷积神经网络的计算速度;局部相应归一化采用
其中k=2,n=5,α=10-4,β=0.75;另外,卷积神经网络中还添加了防止过拟合的dropout方法;在训练该网络时,首先利用已经通过大量无监督学习过的网络进行权值预设,然后进行有监督的权值微调;在权值微调时,将整体和各个部位分别作为不同的类别进行训练,通过将SelectiveSearch产生的候选边框通过填充和缩放到固定的大小后作为神经网络的输入,其中与已标注边框重叠度超过0.7的边框的标签设为该已标注边框的类别标签,如果与所有已标注边框的重叠都小于0.3那么该边框的分类标签设为背景标签;然后将该边框通过卷积神经网络后的类别输出与真实类别标签进行比较,通过反向传播算法对权值进行修正;
通过卷积神经网络后,可以得到分类标签但无法量化得分,所以在卷积神经网络的基础上训练支持向量机用以量化得分;支持向量机的输入为卷积神经网络的全相连第七层,输出为类别得分,从-1到1;训练方法与上方卷积神经网络的训练方法类似;
通过以上两步后,可以获得每个候选边框相对于每个类别的分类得分但是无法获得候选边框之间的关联,所以本发明通过添加几何约束来形成系统的理解,所用的公式如下,,其中Δ(X)是各种空间几何约束,di(xi)为整体边框或者部位边框的支持向量机得分;
空间像素范围约束是以整体边框为主体,寻找空间位置上与其不超过10个像素的候选部位边框,最终通过主边框与候选部位边框的支持向量机得分的成绩的幂最终选出边框组合;公式如下,
其中,
混合高斯模型约束是根据人体之间动作、姿态的相似性进行模拟出的;在训练时,根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型;测试时,给定得分最高的若干主边框,通过尝试不同部位边框的混合高斯模型得分,选出得分超过阈值的边框组合,本约束是建立在空间像素约束之上的方法,公式为
K近邻约束是建立在混合高斯模型的基础上的约束,通过K近邻算法查找与测试图片中假设为整体的边框最相近的K个训练集中的整体边框,然后获取该K个训练边框的混合高斯模型,分别用这些混合高斯模型参数去拟合测试边框,最终获得得分超过阈值的边框组合,公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610056618.9/1.html,转载请声明来源钻瓜专利网。