[发明专利]一种基于关键帧检测的视频描述系统和方法在审
申请号: | 201911145738.6 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110866510A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 尹晓雅;李锐;于治楼 | 申请(专利权)人: | 山东浪潮人工智能研究院有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键 检测 视频 描述 系统 方法 | ||
1.一种基于关键帧检测的视频描述系统,其特征在于:包括采样模块、关键帧选择网络和视频帧描述网络,其中:
采样模块,用于以等间隔的采样方式从待描述视频抽取视频帧;
关键帧选择网络,用于在上述获取的视频帧中筛选具有不同信息的关键帧;
视频帧描述网络,基于上述关键帧生成视频描述文本。
2.根据权利要求1所述关键帧检测的视频描述系统,其特征在于:所述关键帧选择网络基于卷积神经网络搭建,所述视频帧描述网络基于编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM并结合注意力机制。
3.一种基于关键帧检测的视频描述方法,其特征在于:包括如下步骤:
S1、采用等间隔的采样方式从待描述视频抽取视频帧;
S2、基于关键帧选择网络从所抽取的视频帧中筛选包含不同信息的关键帧;
S3、将筛选的关键帧送入至视频帧描述网络中生成描述文本。
4.根据权利要求3所述的基于关键帧检测的视频描述方法,其特征在于:所述关键帧选择网络基于卷积神经网络,关键帧的筛选步骤包括:
S21、所有视频帧依次送入关键帧选择网络中,通过卷积处理后获得视频帧对应的特征向量;
S22、基于当前视频帧的特征向量与上一时刻的视频帧的特征性向量进行对比,获得两者之间的差异特征向量;
S23、将所述差异特征向量送入到二分类网络中进行处理,分别获得有差异概率和无差异概率,当有差异概率大于无差异概率时,当前视频帧选择保留,作为关键帧,并作为下一比较过程的对比视频帧;当有差异概率大于无差异概率时,当前视频帧选择丢弃,该比较过程的对比视频帧仍作为一下过程的对比视频帧;
S24、重复步骤S12-S13,直至将所有视频帧处理完成。
5.根据权利要求4所述的基于关键帧检测的视频描述方法,其特征在于:所述视频帧描述网络基于编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制,视频帧的描述步骤包括:
将上述关键帧送入到视频帧描述网络中,先通过卷积神经网络获取关键帧的特征向量,再将关键帧的特征向量送入到循环神经网络中得到视频全局表示向量,最后将视频全局表示向量送入到解码器中解码得到每时刻单词的概率,选择概率最大的单词作为候选单词,进一步生成视频的描述文本。
6.根据权利要求5所述的基于关键帧检测的视频描述方法,其特征在于:所述视频帧选择网络和视频帧描述网络的建立包括如下步骤:
搭建网络结构:基于卷积神经网络搭建视频帧选择网络,基于编码器-解码器结构搭建视频帧描述网络,所述视频帧描述网络基于编码器-解码器结构,编码器采用卷积神经网络和循环神经网络进行特征提取,解码器采用双向LSTM,并结合注意力机制。
获取原始数据:从获取的待描述视频按等间隔的采样方式抽取视频帧,并在每个视频帧中通过人工进行标注,同时将视频帧划分为训练集和测试集;
制作单词表:使用nltk对每个视频帧中的人工标注进行筛选分词,制作单词表;
预训练视频帧描述网络:通过交叉熵损失函数预训练视频描述网络,将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失;
训练关键帧选择网络:以预训练的视频帧描述网络为环境,使用增强学习算法训练关键帧选择网络。
联合训练:将关键帧选择网络和视频帧描述网络进行联合训练。
7.根据权利要求6所述的基于关键帧检测的视频描述方法,其特征在于:所述预训练视频帧描述网络的步骤包括:
将训练集的视频进行等间隔抽取视频帧,并将抽取的视频帧人工建立标签;
通过卷积神经网络获取所述视频帧的特征向量;
将视频帧的特征向量送入到循环神经网络中得到视频全局表示向量;
将视频全局表示向量送入到解码器中解码得到每时刻单词的概率,选择概率最大的单词作为候选单词;
基于候选单词与人工建立的标签进行监督学习。
8.根据权利要求7所述的基于关键帧检测的视频描述方法,其特征在于:基于上述预训练好的视频帧描述网络训练关键帧选择网络,训练关键帧选择网络的步骤包括:
将训练集的视频进行等间隔抽取视频帧,并将抽取的视频帧人工建立标签;
将视频帧送入到关键帧选择网络中筛选出关键帧,并结合评价体系;
将筛选出的关键帧送入到训练好的视频帧描述网络中获取候选单词;
评价体系基于视频帧描述网络中的候选单词与人工标签的匹配度进行奖励优化关键帧选择网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮人工智能研究院有限公司,未经山东浪潮人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911145738.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环保型LED杀虫灯
- 下一篇:一种双主轴搅拌摩擦焊辅助热源焊接方法