[发明专利]基于GRU网络的视频摘要生成方法与系统有效
| 申请号: | 202011349745.0 | 申请日: | 2020-11-26 |
| 公开(公告)号: | CN112468888B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 陈周元 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | H04N21/8549 | 分类号: | H04N21/8549;H04N21/466;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
| 地址: | 510090 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 gru 网络 视频 摘要 生成 方法 系统 | ||
1.基于GRU网络的视频摘要生成方法,其特征在于,包括以下步骤:
S1:对输入的原始视频下采样并进行特征提取,生成视频帧序列;
S2:基于GRU网络的Seq2Seq模型对视频帧序列进行分析并捕捉视频序列的上下文信息,生成每一帧的重要性得分;
所述Seq2Seq模型是一个编码器-解码器结构的网络,采用双向GRU网络连接编码器;采用注意力机制模型连接解码器;其中:
所述视频帧序列输入连接有双向GRU网络的编码器,生成上下文信息;
所述上下文信息输入带有注意力机制的解码器中,生成每一帧的重要性得分;
所述双向GRU网络包括forward层和backward层,这两层共同连接着输出层,其中包含了6个共享权值W;生成上下文信息的过程具体为:
视频帧序列Z={F0,F1,F2,...,Fn-1}输入到双向GRU网络后,forward层从F0到Fn-1正向计算并保存当前帧之前各帧对当前帧的影响信息,backward层从Fn-1到F0反向计算并保存当前帧之后各帧对当前帧的影响信息;最后在每个时刻结合forward层和backward层的相应时刻输出的结果得到最终的输出;在编码器,当前节点在t时刻的输出为:
其中,xt表示节点的输入;ht-1表示节点的前一状态;fGRU()表示根据节点的输入和节点上一状态信息,使用GRU节点求得节点的当前状态信息;和分别表示forward层中t时刻节点的输出和当前状态信息;和分别表示backward层中t时刻节点的输出和当前状态信息;最后对两层的输出加权求和,并使用sigmoid函数对结果进行归一化,获得t时刻节点的总输出ot,即第t帧的上下文信息;
所述带有注意力机制的解码器根据在编码器获得的每个视频帧的上下文信息oi,结合解码器每个时刻的状态,求得下一时刻的注意力信息,即context向量;context向量反映了对当前视频帧最相关的信息,具体获得过程为:
其中,e(oi,sj)是相关度函数,衡量当前帧与解码器状态的相关度,采用的相关度函数是e(o,s)=Xtanh(Yh+Zs),X,Y,Z是模型参数;αi,j表示每一帧i对第j帧的注意力权重;计算得到context向量后,对解码器每一时刻的重要性得分p进行计算,j+1时刻的状态sj+1以及j+1时刻的重要性得分pj+2计算公式具体为:
sj+1=fGRU(pj+1,concat(sj,contextj));
pj+2=sj+1;
其中,concat()表示将两个向量或矩阵进行拼接;
S3:根据重要性得分结果,使用非极大值抑制算法提取关键帧并去除冗余帧,获取静态视频摘要和动态视频摘要;
获取静态视频摘要的过程具体为:
S311:根据每一帧的重要性得分进行排序,得分高的在前;
S312:创建关键帧序列并清空,开始遍历第一帧;
S313:判断当前帧是否与所有的关键帧的相似度均低于阈值α;若是,执行步骤S314;否则执行步骤S315;
S314:判断当前帧与当前关键帧是否在时间上相近;若是,执行步骤S316;否则,执行步骤S315;
S315:将当前帧加入关键帧序列;
S316:判断帧序列是否已满,若是,执行步骤S317;否则,遍历序列中的下一帧,返回执行步骤S313;
S317:输出关键帧序列,将关键帧序列作为视频数据的静态视频摘要;
获取动态视频摘要的过程具体为:
S321:使用KTS标记出原视频的镜头分割帧;
S322:创建关键镜头列表并清空;
S323:遍历关键帧序列,从第一个关键帧开始;
S324:找到当前关键帧的对应镜头,即当前镜头,并记录关键帧所在位置;
S325:判断当前镜头是否在关键镜头列表中,若是,执行步骤S327;否则,执行步骤S326;
S326:将当前镜头加入关键镜头列表;
S327:判断关键帧序列是否已遍历完;若是,执行步骤S328;否则,遍历下一个关键帧,返回执行步骤S324;
S328;遍历关键镜头列表,用非极大值抑制算法将关键镜头列表总时长限制在规定时间长度内,并使得镜头总得分最大化,生成动态视频摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011349745.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于精密机械生产的高效钻床
- 下一篇:一种剩余油分散程度表征方法





