[发明专利]一种基于时间域卷积神经网络的视频行人检测方法有效
| 申请号: | 201710177973.6 | 申请日: | 2017-03-23 |
| 公开(公告)号: | CN107016357B | 公开(公告)日: | 2020-06-16 |
| 发明(设计)人: | 胡永利;冯乐乐;孙艳丰;尹宝才 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/02 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 时间 卷积 神经网络 视频 行人 检测 方法 | ||
本发明一种基于时间域卷积神经网络的行人检测方法,将针对单幅图像的行人检测方法扩展为针对连续帧图像,训练卷积神经网络学习单幅视频帧上的空间关联性和连续帧之间的时间关联性,弥补了现有方法在检测被遮挡的行人上的不足。此外,采用时间域卷积神经网络进行的行人检测,对行人的姿势变化更加鲁棒,整体的检测精确度和召回率均有提升。
技术领域
本发明属于智能视频监控领域,涉及一种基于时间域卷积神经网络的行人检测方法,特别适用于从视频中检测行人。
背景技术
随着科技的发展和人民对于安防的日益重视,传统的视频监控系统已经越来越难以满足人们的需求。未来视频监控系统将向着数字化、自动化、智能化发展。不仅仅是传输监控画面,更要能检测并分析画面中的行人。本项目致力于研究智能视频监控系统发展中的关键技术——行人检测技术。
现有的针对彩色图的行人检测,基本上可以分为两大类:基于背景建模的方法和基于统计学习的方法。前者是通过算法对背景进行建模,再将当前画面与背景进行比较,从而判断图像上每个像素究竟属于前景物体还是背景。这种方法简单可行,但局限很大,难以应对复杂环境下的干扰。后者[4,5,6,7]则是利用事先标记好的行人样本去训练分类器,提取出行人独有的特征,再去在图像中进行遍历,找出符合这些特征的位置,判断是否存在行人。这些方法能在一定程度上应对环境的变化,但它们往往计算效率不佳。
深度卷积神经网络[1,2,3,9,10,11,12,13,14]是近年来在计算机视觉领域引起热潮的技术。它模拟人类的神经系统的运作原理,让计算机自动从数百万乃至数千万的特征表示中提取出有效的特征并加以组合。
深度卷积神经网络主要由两大部分组成:卷积层和全连接层。每个大层都分别由更小的若干层甚至数十层组成。神经网络方法通常分别为两步:训练和测试。训练步骤中,向神经网络中输入大量的训练样本和对应的标签,让神经网络通过多轮的迭代,学习如何将样本分类。而测试则输入不带标签的样本,输入该样本的预测标签,以此来衡量神经网络的精确度。
神经网络的基本组成单元为神经元,结构如图1所示:
其对应公式如下:
x为原始图像或者上一层的输出结果,以矩阵形式来表示。xi为x中的元素,在图像中即为像素值。W是参数矩阵,矩阵中每一个元素Wi为xi对应的参数(有些文献中称为权重)。b是惩罚项。hw,b(x)表示该神经元的输出结果。
在图像处理领域,这个公式可以理解为,输入一张图像或者一个矩阵,对其中每个元素都乘以一个参数,相加后再加上惩罚项,作为输出,如下图2所示。通过调整参数矩阵中Wi的值,hw,b(x)可以用来近似人工设计的特征。
将大量的神经元组合起来并分成若干层时,就成为了神经网络。通常把这种最经典的神经网络结构称为全连接神经网络,因为每一个神经元都要接受上一层的全部输出,结构如图3所示:
其对应的公式如下:
x为输入图像或者上一层的输出。a为单个神经元的输出,W为每个神经元的参数矩阵,b为每一层的惩罚项。hw,b(x)是整个正经网络的输出。在图像处理领域,神经网络可以视为把输入图像用很多歌神经元分别进行加权计算,把最终结果再乘以参数后相加,得到最终的结果。本发明把接受同一组输入的诸多神经元视为一层,称之为隐藏层。神经网络的理论证明,包含一个隐藏层的神经网络,就可以用来逼近任何人工设计的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710177973.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种Displayport接头
- 下一篇:一种内部单独保护的连接器结构





