[发明专利]一种基于迭代优化的局部感知图表示学习方法有效
申请号: | 202210671735.1 | 申请日: | 2022-06-14 |
公开(公告)号: | CN115392474B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 王丹;穆京京;李源源;崔振;许海燕;高阳特 | 申请(专利权)人: | 南京理工大学;北京空间飞行器总体设计部 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06V10/25;G06V10/44;G06V10/764;G06V10/80 |
代理公司: | 北京圣州专利代理事务所(普通合伙) 11818 | 代理人: | 李春 |
地址: | 210094 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 优化 局部 感知 图表 学习方法 | ||
1.一种基于迭代优化的局部感知图表示学习方法,其特征在于,步骤如下:
S1、把待预测的图片集合和一个随机初始化的多标签集合输入到网络框架中;
S2、循环迭代地优化多标签预测结果;
在每个模块中,优化多标签预测结果的过程包括基于变分推理的显著性区域选择、局部依赖性的标签相关性矩阵构建、图的特征学习、基于历史信息指导的全局/局部分支的联合学习;
基于变分推理的显著性生成过程如下:
(1)对于输入的图像Mi,首先通过RPN检测到多个ROIs,选取出与多标签分类任务相关性较好、数量固定的区域作为显著性区域,舍弃剩余的相关性较弱的冗余区域;
(2)建模区域和多标签分类任务之间复杂的条件分布p(ti|Li,si),通过变分推理的方法来为区域学习自适应的权重因子,其中si为第i个图像真实的标签向量,是第i个图像上检测出的Ki个区域特征,是相关性向量,每个元素tij表示第j个区域与任务的相关性;
将ti进行降序处理,根据降序后的索引,选取出对应的N个固定数量的区域,将前N个最大的相关性权重与对应的区域特征进行相乘,生成显著性区域的特征Vi=[vi1,...,viN],公式如下:
vij=tij×lij,j∈S, (1)
其中,S为选取出的N个区域的索引集合;
(3)在选取显著性区域的过程中,通过qφ(ti|Li,si)来近似后验分布p(ti|Li,si),使用KL散度来评估qφ(ti|Li,si)和p(ti|Li,si)之间的分布差异性;
重新推导变分下界(Variational Lower Bound,VLB)Bvlb(Li,si,φ),即:
设置qφ(ti|Li,si)=qφ(ti|Li),p(ti|Li)~N(0,I),通过重参数化技巧使得ti符合高斯分布,即:
(4)基于变分推理的结果,对每个图像自适应地选取出N个显著性区域,并获取对应的加权后的区域特征Vi=[vi1,...,viN];将每个显著性区域特征vij转化为标签总个数C维的向量,使得从维度上能够将显著性特征视为其粗糙的标签预测分数,N个显著性区域的特征
基于局部依赖的标签相关性矩阵预测多标签分布特征的生成流程如下:
(1)基于学习到的个体LCM和由训练数据获取的统计LCM构建LD_LCM,通过公式(4)计算获取:
其中,AC和分别表示统计的LCM和第i个图像的个体LCM,e表示元素点乘;
(2)对于统计LCMAC,首先通过统计训练集中各个标签共同出现在同一幅图像中的次数,然后基于此信息计算出标签出现的条件概率矩阵,即一个标签出现的情况下,另外一个标签出现的概率;对于个体根据获取的显著性区域特征Vi,按照公式计算生成;
考虑到Vi中的每一列表示对应显著性区域在各个标签上粗糙的预测分数,则的每个元素视为第i个图像中两个标签共现的概率;
图的特征学习中,通过构建局部标签相关性进行图的表示学习,即使用LD_LCM作为图的邻接矩阵,实现在全局分支和局部分支上的标签感知,流程如下:
(1)对于图的表示学习,采用GCN方法来学习节点,其中,定义在第l层上的输入的特征记为F(l),对应的邻接矩阵为A,GCN能够被公式化为如下的非线性函数:
其中,W(l)是第l层上用于空间投影的学习参数,r是归一化标量,数值大小为节点的个数,选择ReLU(·)为非线性激活函数;
(2)对于标签图和显著性区域图,均使用GCN来更新特征;具体来说,对于标签图,将每个标签作为一个节点,使用标签单词嵌入的结果作为初始化特征,构建出标签节点特征矩阵G,LD_LCM作为对应的边;对于显著性区域图,将每个标签在各区域上的分数作为一个节点的特征,仍然使用LD_LCM作为对应的边权重;因此,GCN在标签图和显著性区域图上的表示学习如公式(6)所示:
其中,Ww和Wl分别为对应的在G和Vi上的参数矩阵集合;
基于历史多标签预测结果作为指导信息,来融合多标签模块的全局与局部分支,其过程为:
首先,将多标签预测分数向量通过映射函数对两个分支的多标签预测特征进行通道加权,然后在通过全连接层获取两个分支的多标签预测分数,即全局分支的和局部分支的然后将两个分数进行相加以获取最终的预测分数即:
定义算法的损失函数为:
ζ=ζML-Bvlb(Li,si,φ). (9)
ζML为多标签任务中的常用的损失函数,如公式(10)所示:
其中,yi∈RC为第i个图像的真实标签向量,(yi)j∈{0,1}表示第j个标签存在与否,σ(·)为sigmoid函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学;北京空间飞行器总体设计部,未经南京理工大学;北京空间飞行器总体设计部许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210671735.1/1.html,转载请声明来源钻瓜专利网。