[发明专利]一种基于深度学习的视频片段内容匹配方法有效

申请号：	202010925775.5	申请日：	2020-09-07
公开（公告）号：	CN111814922B	公开（公告）日：	2020-12-25
发明（设计）人：	温序铭;陈尧森;孙毅	申请（专利权）人：	成都索贝数码科技股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/783;G06N3/04;G06N3/08
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	徐静
地址：	610041 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习视频片段内容匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的视频片段内容匹配方法，其特征在于，包括如下步骤：

A、构建具有类别标注的N类视频片段数据集；

B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型，并利用所述视频片段数据集训练该嵌入模型；

C、构建基于视频片段内容表示的嵌入模型的匹配模型，并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型；

D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配，得到匹配结果；

步骤B中，所述三维卷积神经网络为I3D模型，利用该I3D模型构建的嵌入模型结构按串联顺序包括：一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层；

步骤B中，利用所述视频片段数据集训练该嵌入模型时，先使用Kinetics视频数据集进行预训练，然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练；

步骤B中，利用所述视频片段数据集训练该嵌入模型的训练方法，包括：将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2，以及将7×7×7的平均池化层的步长修改为2×7×7，通过挤压操作使得该2×7×7的平均池化层输出为一维张量；然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程；训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1，以及将修改为2×7×7的平均池化层的步长重新改回7×7×7，由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。

2.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤A中，构建具有类别标注的N类视频片段数据集时，采用数据增强手段扩充数据集，并保持类间样本均衡。

3.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤C中，所述匹配模型的结构包括两次融合操作和一个全连接层；每次融合操作的过程为：一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量；另一路先将三维特征变形为二维张量，再以2×2的卷积层对二维张量进行卷积操作输出二维张量，然后将该二维张量变形为三维向量后，与前述三维卷积操作得到的三维向量进行融合；经过两次融合后，通过一个全连接层输出，得到视频片段匹配概率。

4.根据权利要求3所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤C中，在训练该匹配模型时，采用对比损失函数来监督训练过程。

5.根据权利要求1所述的基于深度学习的视频片段内容匹配方法，其特征在于，步骤D包括如下子步骤：

D1，嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取，分别得到1个查询视频片段特征和M个被查询视频片段特征；

D2，将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分，查询视频片段相对于M个被查询视频片段的匹配得分；其中，得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司，未经成都索贝数码科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010925775.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种划线车位识别方法及系统
下一篇：一种多相结构UV光固化粉末涂料树脂及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的视频片段内容匹配方法有效

专利文献下载