[发明专利]多标签分类模型的训练方法、图像的多标签分类方法在审
| 申请号: | 202111233971.7 | 申请日: | 2021-10-22 |
| 公开(公告)号: | CN114004992A | 公开(公告)日: | 2022-02-01 |
| 发明(设计)人: | 丁锐;王语斌;施亮 | 申请(专利权)人: | 同盾网络科技有限公司 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/26;G06T3/40 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 高科;李志刚 |
| 地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 标签 分类 模型 训练 方法 图像 | ||
1.一种多标签分类模型的训练方法,其特征在于,包括:
基于预设的多个分割粒度分割抽样图片,得到多组不同粒度的分割图片序列;
对不同组的分割图片序列进行组合,得到组合图片序列;
对组合图片序列中的组合图片进行拼接,得到拼接图片序列;
将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练。
2.根据权利要求1所述的多标签分类模型的训练方法,其特征在于,方法还包括:
在对样本数据集按照标签类别进行抽样后,对抽样的样本进行检测框标注;
基于检测框与抽样图片的大小关系,确定在预设区间内的分割粒度。
3.根据权利要求2所述的多标签分类模型的训练方法,其特征在于,对不同组的分割图片序列进行组合,得到组合图片序列包括:
对预设区间内的分割粒度进行组合,得到图像分割粒度的组合序列;
按照组合序列的组合方式,对各个组的分割图片进行组合,得到多粒度图片序列。
4.根据权利要求1所述的多标签分类模型的训练方法,其特征在于,将拼接图片序列输入至Transformer模型中,对Transformer模型进行训练包括:
将拼接图片序列输入至Transformer模型的编码器;
将编码器的输出结果输入至前馈层,以对拼接图片序列进行多标签预测,其中,预先将Transformer模型的prediction head去掉,替换成Feed Forward Layer;
将预测的标签进行随机MASK,以对标签组合进行学习,并得到实时损失函数;
基于所述实时损失函数,对Transformer模型的预设参数进行优化。
5.根据权利要求1-4任一项所述的多标签分类模型的训练方法,其特征在于,对组合图片序列中的组合图片进行拼接包括:
对组合图片序列中的各个分割图片序列展平;
在对展平后的分割图片序列进行大小调整后,为每个分割图片序列增加组合内分割图片序列之间相关联的特征,得到待拼接图片序列;
对组合内的待拼接图片序列进行拼接。
6.根据权利要求5所述的多标签分类模型的训练方法,其特征在于,为每个分割图片序列增加组合内分割图片序列之间相关联的特征包括:
基于Transformer模型中的self-Attention结构,提取组合内分割图片序列之间第一相关联特征、以及同一个分割图片序列内不同图片之间的第二相关特征;
为每个分割图片序列增加所述第一相关联特征、以及第二相关联特征。
7.根据权利要求5所述的多标签分类模型的训练方法,其特征在于,在对组合图片序列中的各个分割图片序列展平之后,方法还包括:
基于预设的嵌入向量Xclass(vector,dim=D)、以及拼接图片序列的位置信息参数Epos,对展平后的分割图片序列进行线性变换,其中嵌入向量Xclass、以及位置信息参数Epos均为可被优化的变量。
8.根据权利要求7所述的多标签分类模型的训练方法,其特征在于,对Transformer模型的预设参数进行优化包括:
对线性变换后的嵌入向量Xclass(vector,dim=D)、以及拼接图片序列的位置信息参数Epos进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾网络科技有限公司,未经同盾网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111233971.7/1.html,转载请声明来源钻瓜专利网。





