[发明专利]一种视频人物行为语义识别方法在审
申请号: | 201810236363.3 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108509880A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 陈志;高翔;岳文静;杨天明;陈璐;掌静 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 底层特征 高层语义 语义识别 视频 语义 视频场景 中层 卷积神经网络 循环神经网络 上下文特征 低层特征 复杂行为 人物脸部 人物身份 社交关系 视频特征 行为特征 语义特征 语义信息 真实场景 准确率 建模 两层 并行 抽取 融合 | ||
本发明公开了一种视频人物行为语义识别方法,该方法以识别视频中的人物行为语义与社交关系为目标,首先利用卷积神经网络并行地抽取每个视频场景中的人物身份、人物行为和上下文三个方面的中层语义特征,接着通过两层循环神经网络来融合这三个方面的语义信息,最后完成视频中人物行为语义的识别,该方法有效的弥补的了视频场景的底层特征与高层语义之间的鸿沟,提取了全方位的视频特征包括人物脸部特征、人物行为特征以及上下文特征,提高了语义识别的准确率。本发明通过建立底层特征和高层语义之间的中层特征解决了低层特征对真实场景下的复杂行为建模困难的问题,能够达到解决底层特征与高层语义之间的鸿沟的目的。
技术领域
本发明涉及机器学习,主要是通过底层特征到高层语义的转化方法来完成视频场景高层语义识别过程,属于深度学习、模式识别、视频信息处理等交叉技术应用领域。
背景技术
视频语义分析就是对视频中有序的帧图像进行语义分析。由于一段视频中可能包含多个场景,而这些场景又是由一组有序的帧图像组成。为了更好地分析视频语义,需要对视频进行预处理,包括把视频中的内容按某种方式进行镜头分割并场景化。首先,将通过镜头检测和寻找镜头转化的方法对视频进行分割。其次,将找出镜头中的关键帧集,并通过计算所有镜头的关键帧图像之间的相似度来进行聚类。然后,在视频场景化的基础上,研究视频中人物语义。
视频人物语义分析往往是以研究视频中的人物行为语义为中心,同时辅助视频中除人物以外的事物所构成的上下文环境对象的语义来提高分析人物语义信息的准确性。目前视频语义分析一般都是通过学习图像特征这种方法,图像的特征表示方法主要分为两类:低层特征和中层特征。低层特征是基于视频的像素经由各种变换而来的,没有语义含义。
发明内容
技术问题:本发明的目的是提供一种视频人物行为语义识别方法,主要解决了语义识别问题,是指怎样完成底层特征向高层语义的转化,达到解决底层特征与高层语义之间的鸿沟的目的。这里的底层特征向高层语义转化的方法具体描述如下:底层特征提取、中层特征融合、长短期记忆网络(LSTM)识别。首先,通过卷积神经网络(CNN)、采样与全连接操作来完成中层语义特征抽取与融合;然后,通过LSTM对融合的中层语义进行序列建模来完成语义的识别。
技术方案:本发明解决了中层特征语义提取问题,利用CNN完成人物、上下文以及动作的特征提取。
本发明解决了高层语义识别问题,主要是利用基于LSTM的语义序列模型来完成视频序列的人物语义识别。
本发明所述一种基于深度学习视频场景语义识别方法包括以下步骤:
步骤1):对视频图像底层特征描述与提取,具体步骤如下:
步骤1.1):人物身份底层特征描述与提取,通过对视频场景中人物的人脸进行检测和预处理来描述人物身份底层特征。其中人脸检测是基于局部二值直方图人脸检测器实现的,预处理是在检测之后需要对人脸图像进行灰度化、缩小和均衡化处理。
步骤1.2):人物行为底层特征描述与提取,通过融合视频场景中人物图像序列的时空特征。所述时空特征是指通过原视频帧以及视频帧之间的光流图片获取的人物行为轨迹特征。
步骤1.3):上下文底层特征描述与提取,通过提取从场景所发生的上下文环境和场景里面出现的一些物体的特征。
步骤2):基于预训练的CNN的中层语义特征提取,具体步骤如下:
步骤2.1):人物身份中层特征提取,在人物脸部数据集上完成卷积神经网络的训练。运用预先训练好的卷积神经网络结构的全连接层的特征向量作为人物身份中层特征。
步骤2.2):人物行为中层特征提取,在两个卷积神经网络融合来识别视频中的人物行为。运用训练好的融合神经网络的全连接层的特征向量作为视频中人物行为中层特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810236363.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现信息处理的方法及装置
- 下一篇:一种无切分的脱机手写汉字文本识别方法