[发明专利]数据处理方法、装置及设备在审
申请号: | 202111279272.6 | 申请日: | 2021-10-29 |
公开(公告)号: | CN113705589A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 郭卉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本包括参考样本、正样本和负样本,所述参考样本和所述正样本满足相似关系,所述参考样本和所述负样本满足不相似关系;
调用特征提取模型对所述参考样本、所述正样本和所述负样本进行特征提取处理,得到所述参考样本的参考特征,所述正样本的正特征以及所述负样本的负特征;
根据所述参考特征和所述正特征确定相似损失,根据所述参考特征、所述正特征和所述负特征确定对比损失;
将所述相似损失和所述对比损失叠加为目标损失,根据所述目标损失训练所述特征提取模型,得到目标特征提取模型,所述目标特征提取模型是用于提取多媒体数据的数据特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述相似损失和所述对比损失叠加为目标损失,包括:
获取所述特征提取模型的已训练批次量;
若所述已训练批次量小于预设值,则将所述相似损失的权重和所述对比损失的权重均设为第一参数;
若所述已训练批次量不小于所述预设值,则根据所述正样本的数据类型和所述负样本的数据类型,确定所述相似损失的权重和所述对比损失的权重;
根据所述相似损失的权重和所述对比损失的权重,将所述相似损失和所述对比损失叠加为目标损失。
3.根据权利要求2所述的方法,其特征在于,所述根据所述正样本的数据类型和所述负样本的数据类型,确定所述相似损失的权重和所述对比损失的权重,包括:
获取所述训练样本所在的训练批次的参考相似损失和参考对比损失;
根据所述参考相似损失和所述参考对比损失,确定所述正样本的数据类型和所述负样本的数据类型,所述数据类型包括噪声类型和非噪声类型;
若所述正样本的数据类型为所述噪声类型,且所述负样本的数据类型为所述非噪声类型,则将所述相似损失的权重设为第二参数,将所述对比损失的权重设为所述第一参数,所述第一参数大于所述第二参数;
若所述正样本的数据类型为所述非噪声类型,且所述负样本的数据类型为所述噪声类型,则将所述相似损失的权重设为所述第一参数,将所述对比损失的权重设为所述第二参数。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述正样本和所述负样本的数据类型均为所述非噪声类型,则将所述相似损失的权重和所述对比损失的权重均设为所述第一参数;
若所述正样本和所述负样本的数据类型均为所述噪声类型,则将所述相似损失的权重和所述对比损失的权重均设为空,权重为空的相似损失和权重为空的对比损失叠加得到的目标损失为空。
5.根据权利要求3所述的方法,其特征在于,所述获取所述训练样本所在的训练批次的参考相似损失和参考对比损失,包括:
若所述训练样本所在的训练批次为目标训练批次,则将所述训练样本所在的训练批次的平均相似损失作为所述参考相似损失,将所述训练样本所在的训练批次的平均对比损失作为所述参考对比损失;
若所述训练样本所在的训练批次不为所述目标训练批次,则根据所述训练样本所在的训练批次的平均相似损失,以及与所述训练样本所在的训练批次相邻的训练批次确定所述参考相似损失,根据所述训练样本所在的训练批次的平均对比损失,以及所述与所述训练样本所在的训练批次相邻的训练批次确定所述参考对比损失。
6.根据权利要求1所述的方法,其特征在于,所述将所述相似损失和所述对比损失叠加为目标损失,包括:
从所述参考特征、所述正特征和所述负特征中选择待处理特征;
对所述待处理特征中的元素进行二值化处理,得到二值特征;
根据所述待处理特征和所述二值特征确定量化损失;
将所述量化损失、所述相似损失和所述对比损失叠加为目标损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111279272.6/1.html,转载请声明来源钻瓜专利网。