[发明专利]一种基于多知识融合的小样本视频行为识别方法在审
申请号: | 202110930711.9 | 申请日: | 2021-08-13 |
公开(公告)号: | CN113807176A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 葛永新;蒲瞻星;高兰亭 | 申请(专利权)人: | 句容市紫薇草堂文化科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 212499 江苏省镇*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 融合 样本 视频 行为 识别 方法 | ||
1.一种基于多知识融合的小样本视频行为识别方法,其特征在于,包括如下步骤:
S100:获取多段有标签的视频作为训练数据集Dtrain={(vi,ci),ci∈ctrain},vi表示第i个视频,ci表示第i个标签,ctrain表示训练类,紧接着对这些视频进行视频帧采样操作;
S200:构建识别模型,所述识别模型包括ResNet18-2D卷积神经网络,基于数据视觉特征的预测器和基于数据流形分布特征的预测器;
S300:识别模型的训练,针对训练类ctrain中的每个类选择同样数量的训练样本,设置训练阶段的耐心值阈值,训练阶段的耐心值初始值patience=0、初始化训练阶段的识别模型的参数和训练阶段的学习率阈值;
S310:特征提取器提取视频特征,使用ResNet18-2D卷积神经网络作为特征提取器,对训练集中的视频进行特征提取,得到每个训练样本对应的视觉特征;
S320:将每个训练样本对应的视觉特征输入基于数据视觉特征的预测器中进行分类,得到每个训练样本属于某一训练类的第一个预测得分,然后通过交叉熵损失函数得到每个训练样本的线性分类损失,所有训练样本的线性分类损失之和为LD;
将每个训练样本对应的视觉特征输入基于数据流形分布特征的预测器中进行分类,将每个训练样本对应的视觉特使用表征传播后再进行线性分类得到每个训练样本的属于某一训练类的第二个预测值得分,然后通过交叉熵损失函数得到每个训练样本的流形分类损失,所有训练样本的流形分类损失之和为LE;
S330:计算损失,训练阶段的总损失Ltrain=LD+LE,如果当前总损失大于以前训练阶段所有次迭代总损失的平均值,则patience=patience+1并执行下一步,否则令patience=0patience=0并执行下一步;
S340:如果patience达到训练阶段的耐心值阈值,则调整训练阶段的学习率;当训练阶段的学习率达到训练阶段的学习率阈值则得到训练好的识别模型并执行下一步,否则采用梯度下降法反向传播,更新识别模型的参数并返回S310继续训练;
S400:对训练好的识别模型进行微调,具体如下:
在训练数据集Dtrain中完成对支持集与查询集的采样,二者交集为空集,支持集中的样本称为支持样本,查询集中的样本称为查询样本;针对“N-way,K-shot”任务对训练好的识别模型进行微调,N表示训练类的个数,K表示每个类的样本个数;
预设查询集中每个类的样本个数;
以episode为单元进行训练,每个episode包括多个支持样本和多个查询样本,其中支持样本涵盖了N个类中的每个类,且每个类均选取K个训练样本,查询样本涵盖了N个类中的每个类,且每个类所选的查询样本数量相同;
使用ProtoNet分类器代替训练好的识别模型中的基于数据视觉特征的预测器,并给基于数据流形分布特征的预测流程增加标签传播操作,从而得到修订的识别模型;
设置微调阶段的耐心值阈值,微调阶段的耐心值初始值patience'=0,初始化训练阶段的学习率阈值;
S410:将每个episode中的所有支持样本和查询样本输入ResNet18-2D卷积神经网络进行特征提取,得到每个样本对应的视觉特征;
S420:将每个episode中的样本对应的视觉特征输入ProtoNet分类器中进行分类,得到每个查询样本属于N个类中某一类的第一个预测得分Pcls_proto;
将每个episode中的所有支持样本和查询样本对应的视觉特征输入基于数据的流形分布特征预测器中进行分类,每个episode中的所有支持样本和查询样本对应的视觉特征使用表征传播后得到表征传播特征,再对表征传播特征使用线性分类进行分类,得到每个查询样本属于N个类中某一类的第二个预测得分;然后通过交叉熵损失函数得到每个查询样本的流形分类损失,所有查询样本的流形分类损失之和为L'E;
将每个episode中的所有支持样本和查询样本对应的表征传播特征进行标签传播得到每个查询样本属于N个类中某一类的第三个预测得分Pcls_lab;
每个查询样本的总预测分数Ptotal是Pcls_proto和Pcls_lab的加权之和,再通过交叉熵损失函数计算每个查询样本的微调分类损失Lfusion;
S430:计算损失,微调阶段的总损失Lfinetune等于Lfusion和L'E加权之和,如果当前总损失大于以前微调阶段所有次迭代总损失的平均值,则patience'=patience'+1并执行下一步,否则令patience'=0并执行下一步;
S440:如果patience'达到微调阶段的耐心值阈值,则调整微调阶段的学习率;当微调阶段的学习率达到微调阶段的学习率阈值则得到最终识别模型并执行下一步,否则采用随机梯度下降法反向传播,更新修订的识别模型的参数并返回S310继续微调;
S500:预测,将一段待预测视频,输入最终识别模型中的ResNet18-2D卷积神经网络进行特征提取,得到待预测视频对应的视觉特征;
将待预测视频的视觉特征输入最终识别模型中ProtoNet分类器中行分类,得到该待预测视频属于每一类的第一个得分;
将待预测视频的视觉特征输入最终识别模型中流形数据分布分类器中,得到该待预测视频属于每一类的第二个得分;
将该待预测视频属于每一类的第一个得分和第二个得分进行加权求和得到该待预测视频属于每一类的最终得分,按照得分由大到小排序并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于句容市紫薇草堂文化科技有限公司,未经句容市紫薇草堂文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110930711.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑壳量测断路器
- 下一篇:面向VxWorks实时进程的通信系统