[发明专利]一种基于弱监督学习视频分割的行为识别方法有效
申请号: | 202110207458.4 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112861758B | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 李策;盛龙帅;姜中博;李欣 | 申请(专利权)人: | 中国矿业大学(北京) |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 视频 分割 行为 识别 方法 | ||
1.一种基于弱监督学习视频分割的行为识别方法,其特征在于,包括以下步骤:
步骤(1)、将整个视频初始分割成N段,为每一段分配类标签cN={c1,...ci,...,cN}和长度标签li∈{l1,...,lN},其中ci为第i段视频的类别,li为第i段视频的长度,i∈{1,..,N},对视频段使用Viterbi算法生成帧标签用于计算逐帧的交叉熵损失L,基于所有视频帧的交叉熵损失L,利用其梯度ΔL的随机梯度下降更新GRU网络参数;
步骤(2)、在步骤(1)中由Viterbi算法得到的视频分割中找到最佳的动作分割点,对进行分解得到视觉模型、长度模型、上下文模型,其中,表示预测的第i段视频的类别,表示预测的第i段视频的长度;
步骤(3)、使用单层具有256个循环门单元和softmax输出的GRU网络在前向传播中连接输入视频帧数据序列,得到相对于输入视频帧数据序列的视觉模型和长度模型p(ln|cn),其中,cn为第n段视频的类别标签,ln为第n段视频的长度,p(ln|cn)表示动作类别为cn情况下动作长度为ln的概率;
步骤(4)、定义辅助函数,找到视频动作间的最佳分割点;
所述步骤(4)具体包括:
定义辅助函数Q(t,l,c,g),其中,t为视频帧编号,l表示最后一段的长度,c表示最后一段的类别标签,g表示非终止符的随机语法的上下文,通过步骤(2)找到视频中动作间的最佳分割点,针对视频X的第t帧xt,该辅助函数为满足以下条件的在t帧之前的分段生成最佳概率分数,当l>1时假设没有新的分段:
Q(t,l,c,g)=Q(t-1,l-1,c,g)·p(xt|c) (1)
当l=1时假设帧t处为新的视频段:
表示可能的非终止符的随机语法的上下文,表示可能的类别标签,表示可能的长度,表示限制条件由得到类别标签c和非终止符的随机语法的上下文g,且同时满足存在g′由g′可以得到可能的类别和可能的非终止符的随机语法的上下文表示在可能的非终止符的随机语法的上下文情况下的类别标签为c,在所有可能的长度和所有上进行最大化操作,允许通过假设类c从过渡到g,p(xt|c)表示类别标签为c情况下视频帧为xt的概率,表示动作类别为情况下动作长度为的概率;
步骤(5)、由步骤(3)长度模型和步骤(4)辅助函数得到完整视频的最大可能分割数目,
所述步骤(5)具体包括:由公式(1)和公式(2)可得到l>1和l=1情况下完整视频的最大可能分割N为:
其中,T指视频X的帧数,通过跟踪公式(3)的最大参数和可以得到最佳的类别标签和长度其中p(l|c)表示动作类别为c情况下动作长度为l的概率。
2.根据权利要求1所述的基于弱监督学习视频分割的行为识别方法,其特征在于
所述步骤(1)具体包括:
将含有T帧的视频X={x1,..,xt,...,xT}整个视频初始分割成N段,为每一段分配类标签,输出视频段类别标签cN={c1,...ci,...,cN}和视频段的长度标签li∈{l1,...,lN},其中ci为第i段视频的类别,li为第i段视频的长度,i∈{1,..,N};将分配给帧xt的类别标签定义为cn(t),其中n(t)是第t帧的段号,t∈{1,..,T},推断出最有可能的视频中的分割其中可由以下公式计算得到:
其中,p(ci,li|X)表示视频X中第i段视频的动作类别和动作长度的概率,表示预测的第i段视频的类别,表示预测的第i段视频的长度;
对将视频帧序列X及其类别标签cN通过神经网络转发,cN作为地面真值类别标签提供,所以在训练过程中只需推断出每一视频段的长度标签;将分配给帧xt的类别标签称作cn(t),使用Viterbi算法将视频中动作类别和长度(ci,li)写为逐帧的类别标签cn(1),...,cn(t),...,cn(T),其中cn(t)∈{c1,...cl,...,cN},计算所有视频帧的交叉熵损失:
其中,p(cn(t)|xt)表示视频帧xt对应动作类别cn(t)的概率,-log p(cn(t)|xt)表示视频帧xt的交叉熵损失;基于所有视频帧的交叉熵损失L,利用其梯度ΔL的随机梯度下降更新GRU网络参数用于更新公式(6);
使用缓冲区来存储近期处理的视频帧序列及其推断的帧标签,对缓冲区的K帧进行采样,将其添加到损失函数中;
其中,xk表示缓冲区视频帧序列的第k帧,K为缓冲区视频帧的总数,ck表示帧xk对应的类别标签;
所述步骤(2)具体包括:
根据公式(4)将函数分解:
假设视频帧之间是相互独立的,则公式(7)中arg max能够被转换为公式(8),如下所示:
n(t)为分割帧t的编号,定义p(xt|cn(t))表示类别标签为cn(t)情况下视频帧为xt的概率,p(xt|cn(t))为视觉模型,p(ln|cn)表示第n段视频动作类别为cn情况下动作长度为ln的概率,p(ln|cn)为长度模型,p(cn|cn-1)表示视频中动作类别cn-1的视频段后面的视频段的动作类别为cn的概率,p(cn|cn-1)为上下文模型;
所述步骤(3)具体包括:
使用单层具有256个循环门单元和softmax输出的GRU网络在前向传播中连接输入的含有T帧的视频帧序列X={x1,..,xt,...,xT},p(c|xt)是第t帧视频xt的动作类别的GRU网络的softmax得分,则视觉模型p(xt|c)可以由后验概率p(c|xt)除以p(c)得到,可以表示如下:
其中p(c)是先验分布,p(c)是训练集中动作发生的归一化帧频率,在数据训练过程中,计算所有视频帧序列使用类别标签c标记的帧的数量,然后归一化得到p(c)的预估值;序列标签包含从未见过的类时使用1/#classes表示;
长度模型使用类相关泊松分布实现:
λc表示动作类别c的平均长度,表示λc的l次方,每次迭代会更新λc,l!是l的阶乘;训练样本(X,cN)包含从未见过的类时定义λc=N/T,其中,N表示视频段数,T表示视频X的帧数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207458.4/1.html,转载请声明来源钻瓜专利网。