[发明专利]一种基于多尺度特征选择性融合的指代分割方法在审
申请号: | 202310012997.1 | 申请日: | 2023-01-05 |
公开(公告)号: | CN116152265A | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李智勇;戴贤文;林家丞;李庆鹏 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06V10/80 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 刘桐 |
地址: | 410013 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 特征 选择性 融合 指代 分割 方法 | ||
1.一种基于多尺度特征选择性融合的指代分割方法,其特征在于,
分割模型包括DarkNet53主干网络、双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块;
所述方法包括:
步骤10:视觉特征提取,对于给定的RGB图像,先进行裁剪缩放,通过DarkNet53的编码器得到三种不同尺度的视觉特征Fv1、Fv2、Fv3;
步骤20:文本特征提取,对于给定的文本,先对进行分词并转换成向量的形式,然后使用双向GRU提取初步文本特征,最后基于文本注意力机制根据各个单词的重要性进行加权求和,得到文本特征Fl;
步骤30:通过基于语言主导的特征选择性跳转模块的融合部分先对Fv1、Fv2、Fv3进行选择,得到只与文本描述相关的视觉特征,然后通过基于语言主导的特征选择性跳转模块的跳转部分将选择后的特征进行跳转连接;
所述步骤30包括步骤31至步骤34:
步骤31:将Fv1、Fv2、Fv3输入至基于语言主导的特征选择性跳转模块的融合部分中,与Fl进行点积运算得到点积融合之后的特征其中,Wl表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,表示1×1卷积层操作,⊙表示矩阵点乘运算,g表示Leaky-Relu激活函数;
步骤32:将输入至空间融合分支得到空间注意力图将输入至通道融合分支得到通道注意力图Wv、Wq、Wz表示1×1卷积层操作,FSG表示Sigmoid操作,Wq表示Softmax操作,FGP表示全局池化操作;
步骤33:根据注意力图与视觉特征相乘得到经过通道注意力选择的视觉特征和经过空间注意力选择的视觉特征然后得到只与文本描述相关的视觉特征
步骤34:通过基于语言主导的特征选择性跳转模块的跳转部分将进行跳转连接,与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征其中一层视觉特征上采样后的特征concat表示在通道上进行拼接特征,表示对进行卷积操作,表示对进行卷积操作,Up表示上采样操作;
步骤40:通过二次选择模块对目标特征进行筛选定位,得到只包含目标的视觉特征其中,再一次对视觉特征和文本特征进行点积运算之后的融合特征其中,Wl′表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,Wv′表示1×1卷积层操作;
步骤50:通过图像后处理分割模块得到分割预测值;
步骤60:使用训练数据对分割模型中的双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块和图像后处理分割模块进行训练,其中,训练使用的分割预测损失为表示预测的值,训练使用的注意力对比损失为yi表示真实的分割图,Pn表示yi中的正样本,训练使用的总损失函数为L=αLseg+βLacl,α和β是超参,表示分割预测损失和注意力对比损失各自占比。
2.根据权利要求1所述的基于多尺度特征选择性融合的指代分割方法,其特征在于,所述步骤10还包括:
步骤11:将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去;
步骤12:提取出最后一层的视觉特征Fv1、第152层的视觉特征Fv2以及第69层的视觉特征Fv3;
所述Darknet53主干网络包括CBL模块和ResX模块,其中CBL模块包括卷积层、数据标准化层和Leaky-Relu激活层,ResX模块包括一个Res1模块、一个Res2模块、两个Res8模块和一个Res4模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310012997.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挂接式公寓床
- 下一篇:一种预应力混凝土用钢丝放线装置