[发明专利]一种跨模态检索模型的训练方法和装置在审
| 申请号: | 202310195302.8 | 申请日: | 2023-02-24 |
| 公开(公告)号: | CN116150623A | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 李冠楠 | 申请(专利权)人: | 北京爱奇艺科技有限公司 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F16/783;G06V20/40;G06V10/774;G06V10/74;G06V40/10;G06F16/335;G06F40/268;G06F40/211 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李曼 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 跨模态 检索 模型 训练 方法 装置 | ||
1.一种跨模态检索模型的训练方法,其特征在于,所述方法包括:
通过对既有训练数据集的视频进行挖掘,选取出每类视频片段,其中,所述每类视频片段中仅包括人物,同一类别的物体或画面场景;
从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本;
根据所述属性描述文本和所述视频片段构建新增训练数据集;
将所述新增训练数据集补充至所述既有训练数据集,得到目标训练数据集,并采用所述目标训练数据集对跨模态检索模型进行训练。
2.根据权利要求1所述的方法,其特征在于,通过对既有训练数据集的视频进行挖掘,选取出每类视频片段包括:
通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧,其中,所述对象为人物、物体或画面场景;
采用定位技术确定所述视频帧的时间点位信息;
根据所述时间点位信息对所述视频进行剪切后,将剪切得到的多个视频帧进行组合,得到视频片段。
3.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
对所述既有训练数据集的视频进行人物检测,得到人物检测框;
通过对所述视频中的人物检测框进行跟踪,得到仅包含所述人物的视频帧。
4.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
对所述既有训练数据集的视频进行通用物体检测,得到物体检测框和物体类别标签;
通过对具有同一物体类别标签的所述物体检测框进行跟踪,得到仅包含同一类物体的视频帧。
5.根据权利要求2所述的方法,其特征在于,所述通过对所述既有训练数据集的视频进行对象检测,得到仅包含所述对象的视频帧包括:
对所述既有训练数据集的每个视频帧进行分析,得到包含画面场景的视频帧,其中,所述视频帧携带有场景类别标签。
6.根据权利要求4或5所述的方法,其特征在于,从所述既有训练数据集的文本中识别出所述视频片段的属性描述文本括:
采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据;
从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息。
7.根据权利要求6所述的方法,其特征在于,采用文本分析方案,从所述既有训练数据集的文本中识别出每个属性描述数据包括:
采用词性分析技术,从所述既有训练数据集的文本中识别出名词和形容词;
采用句法分析技术,识别具有修饰关系的名词和形容词的词汇组合,以及不具备形容词修饰的单独名词;
将所述词汇组合或所述单独名词作为一条属性描述数据。
8.根据权利要求6所述的方法,其特征在于,若视频片段为人物视频片段,从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息包括:
若所述人物视频片段中的帧画面特征与属性描述数据的相似度大于第一相似度阈值,则将所述属性描述数据作为所述人物视频片段的属性描述信息。
9.根据权利要求述数据的相似度大于第二相似度阈值,则将所述属性描述数据作为属性描述信息。
10.根据权利要求6所述的方法,其特征在于,若视频片段为场景视频片段,从所述属性描述数据中,查找出与所述视频片段匹配的属性描述信息包括:
若所述属性描述数据中有名词命中所述场景类别标签,或所述场景视频片段中的帧画面特征与属性描述数据的相似度大于第三相似度阈值,则将所述属性描述数据作为属性描述信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司,未经北京爱奇艺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310195302.8/1.html,转载请声明来源钻瓜专利网。





