[发明专利]一种融合图像和声音信息的视频标注方法有效

专利信息
申请号: 202010429160.3 申请日: 2020-05-20
公开(公告)号: CN111832384B 公开(公告)日: 2022-11-08
发明(设计)人: 袁华;张逸帆;陈安皓;李晓燕;伍家松 申请(专利权)人: 东南大学
主分类号: G06V10/774 分类号: G06V10/774;G06V20/40;G06V10/80
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 颜盈静
地址: 211100 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 图像 声音 信息 视频 标注 方法
【权利要求书】:

1.一种融合图像和声音信息的视频标注方法,其特征在于:包括以下步骤:

步骤1:采用MSR-VTT数据集作为所需建立的神经网络模型的训练集和测试集,对所述训练集和测试集进行预处理,得到保存有视频信息的npy文件和用向量表征文字内容的文字标注库,所述视频信息包括图像信息与音频信息;采用通过预处理训练集得到的npy文件和文字标注库作为所需建立的神经网络模型的训练集,采用通过预处理测试集得到的npy文件作为测试神经网络模型准确率的测试集;

步骤2:以保存有视频信息的npy文件作为输入,以表征文字内容的向量为输出,搭建S2VT模型并初始化其内部参数;

步骤3:将文字标注库中的向量加载至神经网络模型中,利用反向传递修改神经网络模型的内部参数;

步骤4:循环执行步骤3,直至训练集中的所有视频都加载完毕,得到训练后的神经网络模型;

步骤5:采用测试集对训练后的神经网络模型进行准确率检测,得到可使用的神经网络模型;

步骤6:对需进行标注的视频进行预处理,得到保存有视频信息的npy文件,将该npy文件输入至可使用的神经网络模型中,得到一个向量,基于文字标注库,将该向量翻译为自然语言,得到视频标注内容。

2.根据权利要求1所述的一种融合图像和声音信息的视频标注方法,其特征在于:在步骤1中,所述的预处理包括以下子步骤:

S11:将训练集中的每个视频分离为图像部分和音频部分;

S12:对图像部分进行以下操作:

对图像部分每隔设定时间取一帧,形成帧集;

对帧集中的图像进行图像特征提取,得到保存有视频图像信息的npy文件;

S13:对音频部分进行以下操作:

对音频部分每隔设定时间进行取样,形成音频样本集;

对音频样本集中的音频进行特征提取,得到保存有视频音频信息的npy文件;

S14:将S12和S13得到的npy文件进行横向拼接,得到保存有视频信息的npy文件;

S15:将训练集中的文字标注部分进行以下操作:

将文字标注部分的每一条描述语句中的每个单词进行编号,形成初步描述语句库;

将初步描述语句库中使用频率低的单词及其对应的编号进行剔除,形成描述语句库;

将描述语句库中的所有描述语句转换为向量,得到文字标注库。

3.根据权利要求1所述的一种融合图像和声音信息的视频标注方法,其特征在于:所述神经网络模型采用S2VT模型。

4.根据权利要求2所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S12中,采用ffmpeg软件对图像部分每隔设定时间取一帧,形成帧集。

5.根据权利要求2所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S13中,采用ffmpeg软件对音频部分每隔设定时间进行取样,形成音频样本集。

6.根据权利要求1或5所述的一种融合图像和声音信息的视频标注方法,其特征在于:在S13中,采用MFCC方法对音频样本集中的音频进行特征提取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010429160.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top