[发明专利]一种融合图像和声音信息的视频标注方法有效
申请号: | 202010429160.3 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111832384B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 袁华;张逸帆;陈安皓;李晓燕;伍家松 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V20/40;G06V10/80 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 图像 声音 信息 视频 标注 方法 | ||
1.一种融合图像和声音信息的视频标注方法,其特征在于:包括以下步骤:
步骤1:采用MSR-VTT数据集作为所需建立的神经网络模型的训练集和测试集,对所述训练集和测试集进行预处理,得到保存有视频信息的npy文件和用向量表征文字内容的文字标注库,所述视频信息包括图像信息与音频信息;采用通过预处理训练集得到的npy文件和文字标注库作为所需建立的神经网络模型的训练集,采用通过预处理测试集得到的npy文件作为测试神经网络模型准确率的测试集;
步骤2:以保存有视频信息的npy文件作为输入,以表征文字内容的向量为输出,搭建S2VT模型并初始化其内部参数;
步骤3:将文字标注库中的向量加载至神经网络模型中,利用反向传递修改神经网络模型的内部参数;
步骤4:循环执行步骤3,直至训练集中的所有视频都加载完毕,得到训练后的神经网络模型;
步骤5:采用测试集对训练后的神经网络模型进行准确率检测,得到可使用的神经网络模型;
步骤6:对需进行标注的视频进行预处理,得到保存有视频信息的npy文件,将该npy文件输入至可使用的神经网络模型中,得到一个向量,基于文字标注库,将该向量翻译为自然语言,得到视频标注内容。
2.根据权利要求1所述的一种融合图像和声音信息的视频标注方法,其特征在于:在步骤1中,所述的预处理包括以下子步骤:
S11:将训练集中的每个视频分离为图像部分和音频部分;
S12:对图像部分进行以下操作:
对图像部分每隔设定时间取一帧,形成帧集;
对帧集中的图像进行图像特征提取,得到保存有视频图像信息的npy文件;
S13:对音频部分进行以下操作:
对音频部分每隔设定时间进行取样,形成音频样本集;
对音频样本集中的音频进行特征提取,得到保存有视频音频信息的npy文件;
S14:将S12和S13得到的npy文件进行横向拼接,得到保存有视频信息的npy文件;
S15:将训练集中的文字标注部分进行以下操作:
将文字标注部分的每一条描述语句中的每个单词进行编号,形成初步描述语句库;
将初步描述语句库中使用频率低的单词及其对应的编号进行剔除,形成描述语句库;
将描述语句库中的所有描述语句转换为向量,得到文字标注库。
3.根据权利要求1所述的一种融合图像和声音信息的视频标注方法,其特征在于:所述神经网络模型采用S2VT模型。
4.根据权利要求2所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S12中,采用ffmpeg软件对图像部分每隔设定时间取一帧,形成帧集。
5.根据权利要求2所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S13中,采用ffmpeg软件对音频部分每隔设定时间进行取样,形成音频样本集。
6.根据权利要求1或5所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S13中,采用MFCC方法对音频样本集中的音频进行特征提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010429160.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置