[发明专利]训练多标签分类模型的方法和装置在审
申请号: | 201711187395.0 | 申请日: | 2017-11-24 |
公开(公告)号: | CN109840530A | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 刘晓阳;胡晓林;王月红;曹忆南 | 申请(专利权)人: | 华为技术有限公司;清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 王君;肖鹂 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签矩阵 样本 标签分类 方法和装置 标签指示 特征矩阵 特征提取 预测 动态学习 权值参数 任务需求 图像特征 网络提取 训练数据 映射矩阵 映射网络 元素表示 置信度 标签 更新 申请 网络 | ||
1.一种训练多标签分类模型的方法,其特征在于,包括:
在训练数据集中确定n个样本和与所述n个样本对应的标签矩阵Yc*n,所述标签矩阵Yc*n中的元素yi*j表示第i个样本是否包含第j个标签指示的对象,c表示与所述训练数据集中的样本相关的标签的个数;
利用特征提取网络提取所述n个样本的特征矩阵Xd*n,其中,所述特征提取网络具有权值参数Z,d表示所述特征矩阵Xd*n的特征维度;
利用特征映射网络获取所述特征矩阵Xd*n的预测标签矩阵所述预测标签矩阵中的元素表示第i个样本包含第j个标签指示的对象的置信度,其中,所述特征映射网络的权值矩阵为低秩的特征映射矩阵Mc*d;
根据所述标签矩阵Yc*n和所述预测标签矩阵对所述权值参数Z、所述特征映射矩阵Mc*d进行更新,训练所述多标签分类模型;
其中,n、c、i、j和d均为正整数,且i的取值范围为1至n,j的取值范围为1至c。
2.根据权利要求1所述的方法,其特征在于,所述低秩的特征映射网络包括第一子映射网络和第二子映射网络,所述低秩的特征映射网络、所述第一子映射网络和所述第二子映射网络具有以下关系:
其中,所述第一子映射网络的权值矩阵为所述第二子映射网络的权值矩阵为Hc*r,r为正整数且r≤min(d,c)。
3.根据权利要求2所述的方法,其特征在于,根据所述标签矩阵Yc*n和所述预测标签矩阵对所述权值参数Z、所述特征映射矩阵Mc*d进行更新,包括:
确定所述预测标签矩阵和所述标签矩阵Yc*n之间的欧氏距离损失函数;
根据所述欧氏距离损失函数,对所述权值参数Z、所述权值矩阵和Hc*r进行更新。
4.根据权利要求3所述的方法,其特征在于,所述根据所述欧氏距离损失函数,对所述权值参数Z、所述权值矩阵和Hc*r进行更新,包括:
将所述欧氏距离损失函数与正则项之和,确定为所述n个样本的优化函数,其中,所述正则项用于约束所述权值参数Z、所述权值矩阵和Hc*r;
将所述优化函数的取值最小时所对应的权值参数Z作为更新后的权值参数Z,将所述优化函数的取值最小时所对应的权值矩阵作为更新后的权值矩阵将所述优化函数的取值最小时所对应的权值矩阵Hc*r作为更新后的权值矩阵Hc*r。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述在训练数据集中确定n个样本和所述n个样本的标签矩阵Yc*n,包括:
确定训练数据集,所述训练数据集中包括D个样本和与所述D个样本中每个样本的标签向量,其中,所述每个样本的标签向量中的元素yj表示所述每个样本是否包含第j个标签指示的对象,其中,D为不小于n的正整数;
从所述训练数据集中随机抽取n个样本,并生成所述n个样本的标签矩阵Yc*n,所述标签矩阵Yc*n包括所述n个样本中的每个样本对应的标签向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
利用所述特征提取网络提取第一样本的第一特征矩阵,其中,所述第一样本不属于所述n个样本;
利用所述第一映射网络获取所述第一特征矩阵的第一预测标签矩阵,所述第一预测标签矩阵中的元素表示所述第一样本包含第j个标签指示的对象的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;清华大学,未经华为技术有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711187395.0/1.html,转载请声明来源钻瓜专利网。