[发明专利]基于长短期记忆网络强化学习的水下视频摘要生成方法有效
| 申请号: | 201810884718.X | 申请日: | 2018-08-06 |
| 公开(公告)号: | CN109213896B | 公开(公告)日: | 2021-06-01 |
| 发明(设计)人: | 陈华杰;张杰豪;姚勤炜;侯新雨 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/73 | 分类号: | G06F16/73;H04L12/24;H04N21/8549 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 黄前泽 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开基于长短期记忆网络强化学习的水下视频摘要生成方法。本发明首先构建语义特征网络、长短期记忆网络、多层感知器网络;然后对摘要视频进行质量评估:多样性与代表性。最后根据质量评估的两个回报函数,采用强化学习中典型的策略梯度的方法训练整个视频摘要网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。 | ||
| 搜索关键词: | 基于 短期 记忆 网络 强化 学习 水下 视频 摘要 生成 方法 | ||
【主权项】:
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:步骤(1)、构建语义特征网络基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;语义特征包括感兴趣目标的类型、时空定位以及运动信息等;步骤(2)、构建长短期记忆网络结构构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;步骤(3)、构建多层感知器网络将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi∈{0,1}表示采样情况,即ayi=1则视频帧是属于摘要视频;4.2对摘要视频的质量进行多样性与代表性的评估:1)多样性评估是测度摘要视频帧之间的差异性;假设Y={yi|i=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:
其中,xt是摘要视频帧的第t个语义特征,xt'是摘要视频帧的第t′个语义特征,d(·,·)是两个语义特征之间的差异或不显示性测度;2)代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示;假设X={xt|t=1,2,...M}是原始视频的语义特征集合,M是原始视频帧的个数,那么代表性回报函数可表示为:
其中,exp()表示自然常数e为底的指数函数;总回报函数R(S)=Rdiv+Rrep;4.3根据上述两回报函数,采用强化学习中典型的策略梯度的方法训练语义特征网络、长短期记忆网络、多层感知器网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810884718.X/,转载请声明来源钻瓜专利网。





