[发明专利]视频表征模型的训练方法及训练装置在审

申请号：	202110799842.8	申请日：	2021-07-15
公开（公告）号：	CN113343936A	公开（公告）日：	2021-09-03
发明（设计）人：	林和政;吴翔宇	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06F16/732
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	包跃华;苏银虹
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频表征模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种视频表征模型的训练方法，包括：获取训练视频、训练视频的关于主要任务的标注数据和关于辅助任务的标注数据；从训练视频获取多种模态信息；将多种模态信息分别输入到对应的特征提取模型中，提取出多种模态信息的特征；将多种模态信息的特征输入到特征融合模型中，得到多模态融合特征；将多模态融合特征输入到主要任务模型中，得到主要任务预测数据；将由多个特征提取模型提取出的多种模态信息的特征中与辅助任务相关的一种模态信息的特征输入到辅助任务模型中，得到辅助任务预测数据；基于主要任务预测数据和关于主要任务的标注数据、辅助任务预测数据和关于辅助任务的标注数据来调整各个模型的参数，对视频表征模型进行训练。

技术领域

本公开涉及视频技术领域，尤其涉及一种视频表征模型的训练方法和装置、基于视频表征模型的视频分类方法和装置、基于视频表征模型的视频聚类推荐方法和装置、基于视频表征模型的视频搜索方法和装置。

背景技术

目前，短视频作为多媒体内容的重要载体之一，变得越来越重要。一个视频单纯靠图像已经无法完全地进行表征，因此，需要在视频中引入音频、文本等信息，从而通过多模态信息来进行视频表征。并且，对于视频内容的表征而言，其质量的优劣会对下游任务有较大的影响。如果是高质量的视频表征，则对作为下游任务的视频分类任务、视频聚类推荐任务和视频搜索任务等会带来促进作用。相反，如果是低质量或模态信息不平衡的视频表征，则会影响视频分类任务、视频聚类推荐任务和视频搜索任务等的结果，从而导致提供给用户的结果不够准确，降低用户体验。

发明内容

本公开提供一种视频表征模型的训练方法和装置、基于视频表征模型的视频分类方法和装置、基于视频表征模型的视频聚类推荐方法和装置、基于视频表征模型的视频搜索方法和装置、电子设备、计算机可读存储介质以及计算机程序产品，以至少解决上述相关技术中存在的问题。

根据本公开实施例的第一方面，提供一种视频表征模型的训练方法，所述视频表征模型包括与多种模态信息分别对应的多个特征提取模型、和特征融合模型，所述训练方法包括：获取训练视频、所述训练视频的关于主要任务的标注数据和所述训练视频的关于辅助任务的标注数据，其中，所述主要任务是基于所述多种模态信息的特征的任务，所述辅助任务是基于所述多种模态信息中的一种模态信息的特征的任务；从所述训练视频获取其所包含的所述多种模态信息；将所述多种模态信息分别输入到对应的特征提取模型中，由所述多个特征提取模型提取出所述训练视频的所述多种模态信息的特征；将所述多种模态信息的特征输入到所述特征融合模型中，由所述特征融合模型得到所述训练视频的多模态融合特征；将所述多模态融合特征输入到主要任务模型中，由所述主要任务模型得到所述训练视频的主要任务预测数据；将由所述多个特征提取模型提取出的所述训练视频的所述多种模态信息的特征中与所述辅助任务相关的一种模态信息的特征输入到辅助任务模型中，由所述辅助任务模型得到所述训练视频的辅助任务预测数据；基于所述主要任务预测数据和所述训练视频的关于主要任务的标注数据、所述辅助任务预测数据和所述训练视频的关于辅助任务的标注数据来调整所述多个特征提取模型、所述特征融合模型、所述主要任务模型、所述辅助任务模型的参数，对所述视频表征模型进行训练。

可选地，基于所述主要任务预测数据和所述训练视频的关于主要任务的标注数据、所述辅助任务预测数据和所述训练视频的关于辅助任务的标注数据来调整所述多个特征提取模型、所述特征融合模型、所述主要任务模型、所述辅助任务模型的参数，对所述视频表征模型进行训练的步骤包括：利用主要任务损失函数，计算所述主要任务预测数据与所述训练视频的关于主要任务的标注数据之间的主要任务损失，并利用辅助任务损失函数，计算所述辅助任务预测数据与所述训练视频的关于辅助任务的标注数据之间的辅助任务损失；根据将所述主要任务损失和所述辅助任务损失，以预定的权重配比求和而得到的值来调整所述多个特征提取模型、所述特征融合模型、所述主要任务模型、所述辅助任务模型的参数，对所述视频表征模型进行训练。

可选地，所述多种模态信息包括图像信息、文本信息、音频信息、地理位置信息、时间信息中的任意两种以上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110799842.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频表征模型的训练方法及训练装置在审

专利文献下载