[发明专利]语义分割模型的训练方法、视频语义分割方法及装置有效
| 申请号: | 202210388367.X | 申请日: | 2022-04-13 |
| 公开(公告)号: | CN114693934B | 公开(公告)日: | 2023-09-01 |
| 发明(设计)人: | 伍天意;朱欤;郭国栋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06V20/70 | 分类号: | G06V20/70;G06V20/40;G06V10/26;G06V10/774;G06V10/82 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义 分割 模型 训练 方法 视频 装置 | ||
1.一种语义分割模型的训练方法,包括:
获取训练样本集,其中,所述训练样本集中的训练样本包括至少一个样本视频流和所述样本视频流的像素级标注结果;
利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模,得到所述样本视频流的上下文表征;
基于所述样本视频流的上下文表征和所述样本视频流的像素级标注结果,计算时序对比损失;
基于所述时序对比损失更新所述初始语义分割模型的参数,得到训练后的语义分割模型;
其中,所述时序对比损失表示为:
其中,t表示时序索引,j表示空间索引,τ>0是一个温度超参数,and分别表示来自帧t′的正样本集合和负样本集合,anchor像素j来自视频帧t,Ytj表示在视频帧t的空间位置j的像素的标注类别,表示在视频帧t′的空间位置j+的预测类别,表示在视频帧t的空间位置j的像素其属于标注类别的预测概率,样本视频流的空时上下文表示为样本视频流的像素级标注结果表示为T是视频帧数量,H和W分别表示高度和宽度,C是特征的通道数。
2.根据权利要求1所述的方法,其中,所述初始语义分割模型包括特征提取网络和建模网络;以及
所述利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模,得到所述样本视频流的上下文表征,包括:
利用所述特征提取网络提取所述样本视频流中视频帧的特征,得到所述样本视频流的级联特征;
利用所述建模网络对所述级联特征进行建模,得到所述样本视频流的上下文表征。
3.根据权利要求2所述的方法,其中,所述利用所述特征提取网络提取所述样本视频流中视频帧的特征,得到所述样本视频流的级联特征,包括:
利用所述特征提取网络分别提取所述样本视频流中所有视频帧的特征;
基于时序维度将所述所有视频帧的特征进行级联,得到所述样本视频流的级联特征。
4.根据权利要求2所述的方法,其中,所述利用所述建模网络对所述级联特征进行建模,得到所述样本视频流的上下文表征,包括:
利用所述建模网络在时序和空间维度上将所述级联特征划分为至少一个网格组;
基于自注意力机制生成每个网格组的上下文表征;
对所述每个网格组的上下文表征进行处理,得到所述样本视频流对应的上下文表征。
5.根据权利要求4所述的方法,其中,所述对所述每个网格组的上下文表征进行处理,得到所述样本视频流对应的上下文表征,包括:
对所述每个网格组的上下文表征进行池化操作;
基于池化后的每个网格组的上下文表征和每个网格组的位置索引,得到所述样本视频流对应的上下文表征。
6.根据权利要求1所述的方法,其中,所述基于所述时序对比损失更新所述初始语义分割模型的参数,得到训练后的语义分割模型,包括:
基于所述时序对比损失、利用反向传播算法更新所述初始语义分割模型的参数,得到训练后的语义分割模型。
7.一种视频语义分割方法,包括:
获取目标视频流;
将所述目标视频流输入至预先训练的语义分割模型,输出得到所述目标视频流的语义分割结果,其中,所述语义分割模型采用如权利要求1-6中任一项所述的方法训练得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210388367.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空调器
- 下一篇:一种废旧钢轨加工扁钢一体化智能生产系统及方法





