[发明专利]一种基于深度卷积网络的视频内容检索方法在审
申请号: | 201910696065.7 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110659390A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 叶武剑;江齐;刘怡俊;刘文杰;翁韶伟 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/71;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 44329 广东广信君达律师事务所 | 代理人: | 杜鹏飞 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频内容检索 视频 视频分类模块 个人数据库 检索功能 检索模块 检索视频 模型移动 内容标签 实时检索 视频分类 视频检索 网络模型 文本显示 运行功能 整体系统 卷积 检索 集合 分类 网络 学习 | ||
1.一种基于深度卷积网络的视频内容检索方法,其特征在于,包括下述步骤:
S1,视频的分类:
确定所需检索的视频,通过网络爬虫或者网上数据下载,查找到所有与所需检索视频相关的视频信息及内容,通过深度卷积神经网络对所有视频进行分类;采用LSTM长短期记忆网络对所有视频数据进行分类处理;
S1.1,将收集的视频按比例分成训练集和测试集,并将训练集视频切割成一张张关键帧的视频图像,将所有关键帧放置对应文件夹下;
S1.2,将所有关键帧图像通过Inception模块遍历,然后在Inception模块网络的最终池化层即保存输出,不做最后的网络分类;然后将每个图像提取的特征整合,每40个帧特征整合为一个序列并保存至数据硬盘中;
S1.3,将每个视频的序列按顺序输入到LSTM长短期记忆网络中,长短期记忆网络通过遗忘门、输入门和输出门决定信息的有用与否,并决定是否抛弃;遗忘门公式如下所示:
ft=σ(Wf[ht-1,xt]+bf),
其中ht-1为前一序列的输出,xt为当前序列的输入,Wf和bf为遗忘门的权重与偏置,通过Sigmoid函数学习到一个0~1的遗忘数字,1代表完全保留,0代表彻底删除;
输入门公式如下所示:
it=σ(Wi[ht-1,xt]+bi),
C′t=tanh(Wc[ht-1,xt]+bc),
其中Wi、bi、Wc、bc为记忆层和输入层的权重与偏置,先通过Sigmoid函数学习一个需要更新的数据的记忆数字,然后通过tanh函数创建候选向量,该向量会被加入到细胞的状态中;状态更新公式如下所示:
Ct=ft*Ct-1+it*C′t,
通过遗忘数字ft和记忆数字it得到更行的状态Ct;
输出门公式如下所示:
ot=σ(Wo[ht-1,xt]+bo),
ht=ot*tanh(Ct),
Sigmoid函数决定了要输出什么信息,然后将单元格状态通过tanh函数,并乘以Sigmoid函数输出,则可输出该视频与其他视频不同的那部分信息;
S1.4,将序列通过4096宽的LSTM层,通过全连接层输出,最后通过softmax函数层预测分类结果,得到所需的模型;
S2,模型的提取;
通过LSTM深度卷积网络的训练,可以得到相应的对视频分类的模型,将模型保存并提取至个人数据库相应位置,同时将所有文件视频放置数据库文件下,并且通过对视频分类后提取所有视频文件的文件名放置至到一个txt文件中,通过txt文件可以搜寻到视频相应位置;
S3,检索视频的预测结果;
输入一个需要检索的视频,通过自动切割并转换为序列,输入到已经训练好的模型中,通过模型的测试得到视频分类的结果,将测试的结果保存至创建好的测试结果文件夹;
S4,视频检索;
设计一个html静态网页,用作检索系统的载体,视频内容的检索步骤如下:
S4.1,将需要检索的视频输入到检索系统中;
S4.2,视频通过S1的分类方法可以自动给检索视频打上一个视频内容的标签;
S4.3,将视频的内容的标签放入网页中检索,寻找到与标签相同的视频信息并显示出来;
S4.4,输出检索出的视频,达到输入视频即可找到相关视频的实时检索效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910696065.7/1.html,转载请声明来源钻瓜专利网。