[发明专利]一种基于密集语义对比的自监督视觉模型预训练方法在审
| 申请号: | 202110988818.9 | 申请日: | 2021-08-26 |
| 公开(公告)号: | CN113989582A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 王伟平;李晓倪;周宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/762;G06N3/08;G06N3/04 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 密集 语义 对比 监督 视觉 模型 训练 方法 | ||
1.一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:
1)对于样本图像xi,利用数据增强方法a对样本图像xi增强后输入第一编码器网络分支得到基础特征然后将基础特征输入全局映射模块得到实例级特征将基础特征输入密集映射模块得到样本图像xi中每一个像素点pi的特征,即像素级特征利用数据增强方法b对样本图像xi增强后输入第二编码器网络分支得到基础特征然后将基础特征输入全局映射模块得到实例级特征将基础特征输入密集映射模块得到样本图像xi中每一个像素点pi的特征,即像素级特征
2)基于和进行对比学习,得到实例判别损失Lins;基于和进行对比学习,得到像素判别损失Lpix;
3)对于样本图像xi中的任意一像素点pi,根据该像素点pi对应的正样本集计算邻居判别损失Lnei;
4)对数据增强方法a增强后的样本图像对应的像素级特征集合va执行聚类操作,获得K个聚类集群;对数据增强方法b增强后的样本图像对应的的像素级特征集合vb执行聚类,获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM;
5)将损失函数L=Lins+Lpix+Lsem作为自监督视觉模型预训练的最终损失函数,对自监督视觉模型进行端到端的训练;其中Lsem为Lnei、LKM或LPM,LPM表示对一个像素进行原型映射的损失。
2.如权利要求1所述的方法,其特征在于,其中,τins代表实例级别的温度系数;s(,)是相似度函数,z_为除xi自身之外的其他所有样本构成负样本集。
3.如权利要求1所述的方法,其特征在于,其中,τpix代表像素级别的温度系数,s(,)是相似度函数,v-为来自于除xi之外的其他图像的像素点构成负样本集。
4.如权利要求2或3所述的方法,其特征在于,a、b的相似度
5.如权利要求1所述的方法,其特征在于,
6.如权利要求1所述的方法,其特征在于,其中ec为第c个集群的质心特征,为对像素级特征va进行聚类操作得到的第c个集群的质心特征,为对像素级特征vb进行聚类操作得到的第c个集群的质心特征,τKM为集群级别的温度系数,e-表示对像素级特征va进行聚类所得K个集群中除第c个集群之外的其他所有K-1个集群的质心。
7.如权利要求6所述的方法,其特征在于,l(v,q)=∑kqklogpk,其中,k是索引值,ck表示K-分类器中第k个类别的权重,k’的取值范围为1~K,ck’表示K-分类器中第k’个类别的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110988818.9/1.html,转载请声明来源钻瓜专利网。





