[发明专利]一种基于深度学习的视频片段内容匹配方法有效
| 申请号: | 202010925775.5 | 申请日: | 2020-09-07 |
| 公开(公告)号: | CN111814922B | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 温序铭;陈尧森;孙毅 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/783;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
| 地址: | 610041 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 视频 片段 内容 匹配 方法 | ||
1.一种基于深度学习的视频片段内容匹配方法,其特征在于,包括如下步骤:
A、构建具有类别标注的N类视频片段数据集;
B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型,并利用所述视频片段数据集训练该嵌入模型;
C、构建基于视频片段内容表示的嵌入模型的匹配模型,并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型;
D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配,得到匹配结果;
步骤B中,所述三维卷积神经网络为I3D模型,利用该I3D模型构建的嵌入模型结构按串联顺序包括:一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层;
步骤B中,利用所述视频片段数据集训练该嵌入模型时,先使用Kinetics视频数据集进行预训练,然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练;
步骤B中,利用所述视频片段数据集训练该嵌入模型的训练方法,包括:将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2,以及将7×7×7的平均池化层的步长修改为2×7×7,通过挤压操作使得该2×7×7的平均池化层输出为一维张量;然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程;训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1,以及将修改为2×7×7的平均池化层的步长重新改回7×7×7,由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。
2.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤A中,构建具有类别标注的N类视频片段数据集时,采用数据增强手段扩充数据集,并保持类间样本均衡。
3.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤C中,所述匹配模型的结构包括两次融合操作和一个全连接层;每次融合操作的过程为:一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量;另一路先将三维特征变形为二维张量,再以2×2的卷积层对二维张量进行卷积操作输出二维张量,然后将该二维张量变形为三维向量后,与前述三维卷积操作得到的三维向量进行融合;经过两次融合后,通过一个全连接层输出,得到视频片段匹配概率。
4.根据权利要求3所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤C中,在训练该匹配模型时,采用对比损失函数来监督训练过程。
5.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤D包括如下子步骤:
D1,嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取,分别得到1个查询视频片段特征和M个被查询视频片段特征;
D2,将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分,查询视频片段相对于M个被查询视频片段的匹配得分;其中,得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010925775.5/1.html,转载请声明来源钻瓜专利网。





