[发明专利]一种基于联邦学习的视频片段检索方法及系统有效
| 申请号: | 202210849763.8 | 申请日: | 2022-07-20 |
| 公开(公告)号: | CN114925238B | 公开(公告)日: | 2022-10-28 |
| 发明(设计)人: | 罗昕;王妍;王娜;陈振铎;许信顺 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/78;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250000 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 联邦 学习 视频 片段 检索 方法 系统 | ||
1.一种基于联邦学习的视频片段检索方法,其特征在于,包括:
获取查询语句以及预先指定的待检索视频;
将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求;
考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练;
所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
其中,表示所有时序类别的集合,x表示中的某一个时序类别,为客户端k预测的时序类别分布,为真实的总体时序类别分布;
通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别。
2.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述将所有的局部模型参数传输至中心服务器进行聚合,具体为:基于客户端上传至中心服务器的部分数据集对其训练的模型进行测试,基于测试结果的交并比指标确定当前客户端局部模型参数的加权权重;基于所述加权权重以及当前客户端对应的局部模型参数实现模型参数的聚合。
3.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述视频检索模型具体为:输入经过3D卷积网络提取的视觉特征,以及经词嵌入网络提取的文本特征;分别使用线性层和LSTM网络将视觉特征和文本特征映射到同一特征空间;将同一特征空间下的视觉特征和文本特征级联,获得跨模态特征表示;经另一层LSTM网络转化后,放入分数预测网络获得不同时序点的分数,同时,放入索引预测网络获得预测的起止时间点;其中,所述分数预测网络及索引预测网络均采用全连接层。
4.如权利要求1所述的一种基于联邦学习的视频片段检索方法,其特征在于,所述视频检索模型输出的视频片段表现为视频片段的起始时间点和结束时间点。
5.一种基于联邦学习的视频片段检索系统,其特征在于,包括:
数据获取单元,其用于获取查询语句以及预先指定的待检索视频;
视频检索单元,其用于将所述查询语句以及待检索视频输入预先训练的视频检索模型,获得所述查询语句对应的视频片段;
其中,所述视频检索模型的训练,采用串行学习策略的联邦学习方法,具体包括:对于携带有不同训练数据的若干客户端,使客户端按照预设顺序逐个的对所述视频检索模型进行局部训练,前一个客户端训练的局部模型参数传输至下一个客户端并作为其模型训练的初始化参数;所有客户端完成训练后,将所有的局部模型参数传输至中心服务器进行聚合,获得当前轮次的全局模型参数,并将所述全局模型参数下发至所述客户端继续迭代执行,直至满足预设迭代要求;
考虑到模型训练的效率,将若干客户端进行分组,所述客户端在组内按照预设顺序逐个执行模型的训练,组间并行执行模型的训练;
所述视频检索模型在客户端中进行局部训练的过程中,基于客户端内样本的时序类别分布,引入分布差异损失函数参与客户端的模型更新,其中,所述分布差异损失函数具体表示如下:
其中,表示所有时序类别的集合,x表示中的某一个时序类别,为客户端k预测的时序类别分布,为真实的总体时序类别分布;
通过考虑起始时间点是属于视频的前半部分还是后半部分将样本分类为2个类别,同样地,考虑结束时间点在视频的前半部分还是后半部分,将样本分为2个类别,在同时考虑开始时间点和结束时间点位置的情况下,将整个数据集划分为4个时序类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210849763.8/1.html,转载请声明来源钻瓜专利网。





