[发明专利]基于GRU网络的视频摘要生成方法与系统有效

申请号：	202011349745.0	申请日：	2020-11-26
公开（公告）号：	CN112468888B	公开（公告）日：	2023-04-07
发明（设计）人：	陈周元	申请（专利权）人：	广东工业大学
主分类号：	H04N21/8549	分类号：	H04N21/8549;H04N21/466;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	张金福
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 gru 网络视频摘要生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于GRU网络的视频摘要生成方法，其特征在于，包括以下步骤：

S1：对输入的原始视频下采样并进行特征提取，生成视频帧序列；

S2：基于GRU网络的Seq2Seq模型对视频帧序列进行分析并捕捉视频序列的上下文信息，生成每一帧的重要性得分；

所述Seq2Seq模型是一个编码器-解码器结构的网络，采用双向GRU网络连接编码器；采用注意力机制模型连接解码器；其中：

所述视频帧序列输入连接有双向GRU网络的编码器，生成上下文信息；

所述上下文信息输入带有注意力机制的解码器中，生成每一帧的重要性得分；

所述双向GRU网络包括forward层和backward层，这两层共同连接着输出层，其中包含了6个共享权值W；生成上下文信息的过程具体为：

视频帧序列Z＝{F₀,F₁,F₂,...,F_n-1}输入到双向GRU网络后，forward层从F₀到F_n-1正向计算并保存当前帧之前各帧对当前帧的影响信息，backward层从F_n-1到F₀反向计算并保存当前帧之后各帧对当前帧的影响信息；最后在每个时刻结合forward层和backward层的相应时刻输出的结果得到最终的输出；在编码器，当前节点在t时刻的输出为：

其中，x^t表示节点的输入；h_t-1表示节点的前一状态；f_GRU()表示根据节点的输入和节点上一状态信息，使用GRU节点求得节点的当前状态信息；和分别表示forward层中t时刻节点的输出和当前状态信息；和分别表示backward层中t时刻节点的输出和当前状态信息；最后对两层的输出加权求和，并使用sigmoid函数对结果进行归一化，获得t时刻节点的总输出o_t，即第t帧的上下文信息；

所述带有注意力机制的解码器根据在编码器获得的每个视频帧的上下文信息o_i，结合解码器每个时刻的状态，求得下一时刻的注意力信息，即context向量；context向量反映了对当前视频帧最相关的信息，具体获得过程为：

其中，e(o_i,s_j)是相关度函数，衡量当前帧与解码器状态的相关度，采用的相关度函数是e(o,s)＝Xtanh(Yh+Zs)，X，Y，Z是模型参数；α_i,j表示每一帧i对第j帧的注意力权重；计算得到context向量后，对解码器每一时刻的重要性得分p进行计算，j+1时刻的状态s_j+1以及j+1时刻的重要性得分p_j+2计算公式具体为：

s_j+1＝f_GRU(p_j+1,concat(s_j,context_j))；

p_j+2＝s_j+1；

其中，concat()表示将两个向量或矩阵进行拼接；

S3：根据重要性得分结果，使用非极大值抑制算法提取关键帧并去除冗余帧，获取静态视频摘要和动态视频摘要；

获取静态视频摘要的过程具体为：

S311：根据每一帧的重要性得分进行排序，得分高的在前；

S312：创建关键帧序列并清空，开始遍历第一帧；

S313：判断当前帧是否与所有的关键帧的相似度均低于阈值α；若是，执行步骤S314；否则执行步骤S315；

S314：判断当前帧与当前关键帧是否在时间上相近；若是，执行步骤S316；否则，执行步骤S315；

S315：将当前帧加入关键帧序列；

S316：判断帧序列是否已满，若是，执行步骤S317；否则，遍历序列中的下一帧，返回执行步骤S313；

S317：输出关键帧序列，将关键帧序列作为视频数据的静态视频摘要；