[发明专利]面向指向性视觉理解和分割的图像描述预测方法有效
| 申请号: | 202011222105.3 | 申请日: | 2020-11-05 |
| 公开(公告)号: | CN112308080B | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 王振宁;许金泉;王溢;蔡碧颖 | 申请(专利权)人: | 南强智视(厦门)科技有限公司 |
| 主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V10/80;G06F18/214;G06V10/82;G06N3/045 |
| 代理公司: | 泉州市潭思专利代理事务所(普通合伙) 35221 | 代理人: | 廖仲禧;麻艳 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 指向 视觉 理解 分割 图像 描述 预测 方法 | ||
1.一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;其特征在于包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤2,分别获取RGB图像在三个尺度的视觉特征:以及描述语言的语言特征:为实数集;
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1',Fm2',Fm3'};
步骤4,利用Fm3'预测得到指向性视觉分割结果表示52×52个位置的每个位置上物体的分割结果;利用Fm1'预测得到指向性视觉理解结果分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度;
所述步骤4中,基于训练的神经网络进行预测,所用的损失函数的计算方法是:
步骤A,通过如下线性映射得到需要预测的结果:
Logits=Sigmoid(F′m1Wls)
Logitxy=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
其中,Wls、Wxy、Wwh、Wconf分别为预测头的参数矩阵;Logits为指向性视觉分割结果,与标签Labels直接计算损失函数,如下:
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标、长宽、置信度:
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x')=x'log(x)+(1-x')log(1-x)
步骤B,将Fm1'和Fm3'通过基于语言的注意力模块GARAN得到注意力特征和设计如下损失函数,通过优化两个注意力特征来最大化面向指向性视觉理解任务和面向指向性视觉分割任务的共同关注:
lcem=-log(Es'TscEc')
其中:
E's、E'c表示分别利用注意力特征预测得到的注意力图;Tsc为注意力特征和之间的相关系数;Ws和Wc为可训练的权重;上式的以及表示为和中的一个元素;训练过程中通过最小化lcem来优化两个任务之间的共同关注,则最终的损失函数加权相加为:
l=0.1×ls+lxy+lwh+lconf+lcem
步骤5,给定预测得到的指向性视觉分割结果Logits,以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi被更新为:
其中mi为更新后的元素;αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南强智视(厦门)科技有限公司,未经南强智视(厦门)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011222105.3/1.html,转载请声明来源钻瓜专利网。





