[发明专利]基于阈值矩阵和特征融合视觉单词的人物行为识别方法有效
申请号: | 201410222664.2 | 申请日: | 2014-05-23 |
公开(公告)号: | CN104616316B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 龚声蓉;谢飞;刘纯平;王朝晖;季怡 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06K9/00 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 伊美年 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阈值 矩阵 特征 融合 视觉 单词 人物 行为 识别 方法 | ||
技术领域
本发明涉及一种人物行为识别的方法,可用于目标跟踪、人物识别、智能监控、人机交互等多个领域。
背景技术
行为识别的研究和应用已经成为当今世界的热门主题。人机交互系统是人物行为识别的一个典型的应用,人机交互系统利用通过利用图像传感器读入视频,然后使用计算机视觉、图像处理和模式识别等算法进行处理,最终的目的是通过读入的视频识别出其中人物的行为从而做出相应的回应。在整个交互系统中,如何提取出人物行为关键位置的特征来表征行为成为了一个主要的问题,在对特征进行提取过后,对于这些传入的数据,选择不同的模型进行建模分析和识别也非常重要。对于输入的视频,一般可以粗略的将其区分为简单背景和复杂背景。简单背景一般指场景比较单一,如讲课时,老师一般站立在黑板之前,背景除了黑板没有其他目标。复杂背景一般可以认为是动态的背景,即除了前景目标外,背景也存在着少量的运动,如飘动的树叶或者远处的人流。在整个人机交互系统中,必须要考虑到背景对人物目标特征提取的影响。因此,如何能够降低背景对前景的干扰,如何能够更好的选择特征来表示行为成为了人物行为识别需要解决的主要问题。上述的人机交互例子属于计算机视觉中的概念,而完成这项工作的基础就是要对场景中人物的行为进行识别。
行为识别,即输入视频中前景目标的行为进行分析和分类的过程。而人物行为指的就是视频中的前景目标为人,而非汽车,动物。人物行为识别是计算机视觉中的一个重要研究方向,通过对人物特征的提取建立行为模型,然后通过模型的推导求出整个行为的类别,从而达到识别的目的。
从上述的例子可知,人机交互系统中计算机如何能够做出最准确响应完全依赖于对视频帧的人物行为识别的准确性,所以提取出能够充分描述行为的特征,选择准确度高的分类模型来提高识别率成为了人物行为识别需要解决的主要问题。
目前,人体行为分析在诸多方面都有着广泛的应用前景和潜在的商业价值。如基于内容的视频分析,视频监控和安全系统以及人机交互系统;在我们的日常生活中,视频信息已经非常普及。随着视频分享网站的日益扩大,分类和存储相关主题的视频也成为了一个研究的热点,而要对各个视频进行分类存贮的前提是需要知道每个视频中的人物在做的事情,这就需要进行行为的识别;又如监狱内的视频监控系统需要根据犯人的异常行为来给出警告,这时就需要算法可以很好的对犯人的各种行为进行分类,通过与常规行为的比对来判断犯人的行为是否有异常;再如之前提到的人机交互系统,对于讲课的教师的肢体动作来判断是否需要将ppt进行翻页或者后退等操作。所有的应用都需要计算机可以正确的识别出视频中人物所做的行为,因此对人物行为识别已经成为了计算机视觉中的一个重要研究领域。
对于各种不同场景下的输入视频,行为识别的过程基本一致。首先对训练视频进行动作的表征,即提取各种特征来描述行为,然后针对不同的方法,选择不同的模型对这些特征向量(准确的说是视觉单词聚类前的特征,但是一般可以认为是视觉单词)进行建模分析,从而建立各个动作的模型;在动作模型建立好后,同样对测试视频提取特征,然后将特征作为输入,放入建好的动作模型中进行分类,最后将动作的分类结果作为测试视频中人物行为的标签返回出来,达到识别的目的。
目前,对于行为特征提取主要分为两种:基于局部特征的提取和基于全局特征的提取。常见的局部特征提取方法有基于三维Harris角点的方法、基于Cuboids立方体的方法和基于三维SIFT特征的方法,其中基于角点的方法将视频中检测出的三维Harris角点作为视频的时空兴趣点,建立以兴趣点为中心的时空立方体并构建光流直方图和梯度直方图作为特征生成视觉单词,这种方法可以很好地提取出兴趣点周围的运动信息,但是容易受到光照的影响;基于Cuboids立方体的方法使用Gabor滤波检测视频中的兴趣点,之后生成基于Cuboids的视觉单词,由于该视觉单词使用简单的空间立方体,因此该特征不能很好地反映出兴趣点周围的运动变化;基于三维SIFT特征的方法,使用三维SIFT算子作为视频的视觉单词,有效地减少了噪声和光照等因素的影响,但是三维SIFT特征对于运动信息的表示有一定的欠缺,在遇到两个动作近似的情况下,往往得不到较好地结果。常见的全局特征提取方法如梯度方向直方图和光流直方图将整帧图像作为一个特征,这种方法能够很好的描述图像的运动信息以及运动趋势,但是无法细致的描绘行为的细节特性。并且所有的方法在特征提取时,均对图像进行全局的考虑,没有对前背景区别对待,因此当背景相对复杂时,识别精度会有明显下降。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410222664.2/2.html,转载请声明来源钻瓜专利网。