[发明专利]语义分割模型的训练方法、视频语义分割方法及装置有效

申请号：	202210388367.X	申请日：	2022-04-13
公开（公告）号：	CN114693934B	公开（公告）日：	2023-09-01
发明（设计）人：	伍天意;朱欤;郭国栋	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V20/70	分类号：	G06V20/70;G06V20/40;G06V10/26;G06V10/774;G06V10/82
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义分割模型训练方法视频装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语义分割模型的训练方法，包括：

获取训练样本集，其中，所述训练样本集中的训练样本包括至少一个样本视频流和所述样本视频流的像素级标注结果；

利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模，得到所述样本视频流的上下文表征；

基于所述样本视频流的上下文表征和所述样本视频流的像素级标注结果，计算时序对比损失；

基于所述时序对比损失更新所述初始语义分割模型的参数，得到训练后的语义分割模型；

其中，所述时序对比损失表示为：

其中，t表示时序索引，j表示空间索引，τ＞0是一个温度超参数，and分别表示来自帧t′的正样本集合和负样本集合，anchor像素j来自视频帧t，Y_t^j表示在视频帧t的空间位置j的像素的标注类别，表示在视频帧t′的空间位置j⁺的预测类别，表示在视频帧t的空间位置j的像素其属于标注类别的预测概率，样本视频流的空时上下文表示为样本视频流的像素级标注结果表示为T是视频帧数量，H和W分别表示高度和宽度，C是特征的通道数。

2.根据权利要求1所述的方法，其中，所述初始语义分割模型包括特征提取网络和建模网络；以及

所述利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模，得到所述样本视频流的上下文表征，包括：

利用所述特征提取网络提取所述样本视频流中视频帧的特征，得到所述样本视频流的级联特征；

利用所述建模网络对所述级联特征进行建模，得到所述样本视频流的上下文表征。

3.根据权利要求2所述的方法，其中，所述利用所述特征提取网络提取所述样本视频流中视频帧的特征，得到所述样本视频流的级联特征，包括：

利用所述特征提取网络分别提取所述样本视频流中所有视频帧的特征；

基于时序维度将所述所有视频帧的特征进行级联，得到所述样本视频流的级联特征。

4.根据权利要求2所述的方法，其中，所述利用所述建模网络对所述级联特征进行建模，得到所述样本视频流的上下文表征，包括：

利用所述建模网络在时序和空间维度上将所述级联特征划分为至少一个网格组；

基于自注意力机制生成每个网格组的上下文表征；

对所述每个网格组的上下文表征进行处理，得到所述样本视频流对应的上下文表征。

5.根据权利要求4所述的方法，其中，所述对所述每个网格组的上下文表征进行处理，得到所述样本视频流对应的上下文表征，包括：