[发明专利]一种无监督语义分割模型的训练方法及相关装置在审
| 申请号: | 202210603032.5 | 申请日: | 2022-05-30 |
| 公开(公告)号: | CN115063585A | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 朱艺;刘健庄 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/74;G06V10/762;G06V10/774;G06V10/82 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 监督 语义 分割 模型 训练 方法 相关 装置 | ||
本申请公开了一种无监督语义分割模型的训练方法,应用于人工智能技术领域。本方案中,基于图像中的对象所属的类别集合对图像的特征图聚类,得到图像中各个对象所对应的图像区域。通过在对图像特征进行聚类的过程中,基于图像中的对象所属的类别集合来进行聚类,能够在聚类过程中引入语义信息,提高聚类的准确性,从而保证聚类后得到的多个图像区域的分割准确性。然后,通过多模态模型对图像区域和类别集合的文本进行匹配,获得各个图像区域对应的类别,从而为图像引入含有语义信息的伪标注。最后,基于含有语义信息的伪标注对语义分割模型进行训练,能够使得语义分割模型在训练过程中学习到语义信息,提高训练得到的语义分割模型的精度。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种无监督语义分割模型的训练方法及相关装置。
背景技术
语义分割是计算机视觉领域的一种识别任务,具有广泛的应用场景,例如自动驾驶、增强现实、智慧医疗等等场景。通过往语义分割模型输入一个图像,语义分割模型能够对图像中的每个像素都标记一个语义类别,从而实现图像中不同对象的分割。现有的语义分割模型在训练过程中往往依赖于大量的标注图像。然而,获取大规模的标注图像需要耗费巨大的时间成本和经济成本。因此,如何以更少的标注代价,从无标注的图像数据中挖掘信息来训练语义分割模型显得尤为重要。
为了降低标注成本,无监督的语义分割模型训练方法应运而生。无监督的语义分割模型训练方法,能够借助不同形式的先验知识,给无标注的图像数据生成伪标注,再训练语义分割模型。
在相关技术中,由于图像中标注信息的缺失,无监督的语义分割模型训练方法主要依靠挖掘图像的底层视觉信息,如颜色、轮廓、局部上下文等信息的相似性,来生成用于训练的伪标注。然而,基于底层视觉信息所生成的伪标注缺乏高层语义信息,从而导致基于伪标注训练得到的语义分割模型的语义分割精度较差。
发明内容
本申请提供了一种无监督语义分割模型的训练方法,能够使得语义分割模型在训练过程中学习到语义信息,提高训练得到的语义分割模型的精度。
本申请第一方面提供一种无监督语义分割模型的训练方法,包括:获取训练数据集中的第一图像的特征图,并根据所述第一图像的类别集合对所述特征图进行聚类,得到所述特征图中的多个特征区域,其中所述类别集合用于指示所述第一图像中的多个对象的类别,所述多个特征区域中的每个特征区域对应于所述类别集合中的一个类别。
然后,确定所述第一图像中与所述多个特征区域对应的多个图像区域,并将所述多个图像区域和描述所述类别集合的多个文本输入多模态模型,得到输出结果,所述输出结果用于指示所述多个图像区域中每个图像区域对应的类别,其中所述多模态模型用于执行图像和文本的匹配。
其次,将所述第一图像输入待训练的语义分割模型,得到第一语义分割结果。
最后,根据第一损失函数,对所述语义分割模型进行训练,以更新所述语义分割模型,其中所述第一损失函数是基于所述输出结果和所述第一语义分割结果构建的。
本方案中,基于图像中的对象所属的类别集合对图像的特征图聚类,得到图像中各个对象所对应的图像区域。通过在对图像特征进行聚类的过程中,基于图像中的对象所属的类别集合来进行聚类,能够在聚类过程中引入语义信息,提高聚类的准确性,从而保证聚类后得到的多个图像区域的分割准确性。然后,通过多模态模型对图像区域和类别集合的文本进行匹配,获得各个图像区域对应的类别,从而为图像引入含有语义信息的伪标注。最后,基于含有语义信息的伪标注对语义分割模型进行训练,能够使得语义分割模型在训练过程中学习到语义信息,提高训练得到的语义分割模型的精度。
在一种可能的实现方式中,所述多模态模型用于提取所述多个图像区域对应的多个图像特征以及所述多个文本对应的多个文本特征,并计算所述多个图像特征中的每个图像特征与所述多个文本特征之间的相似度,以得到所述多个图像区域中每个图像区域对应的类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603032.5/2.html,转载请声明来源钻瓜专利网。





