[发明专利]统一级联的全景叙事检测与分割方法在审
申请号: | 202310130117.0 | 申请日: | 2023-02-17 |
公开(公告)号: | CN116050409A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 纪荣嵘;孙晓帅;杨丹妮;王昊为;纪家沂 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06N3/08;G06N3/0464 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 级联 全景 叙事 检测 分割 方法 | ||
1.统一级联的全景叙事检测与分割方法,其特征在于包括以下步骤:
1)多模态编码:给定一段叙事文本和图像对,图像经过一个特征金字塔网络提取视觉特征为Fv;叙事文本通过预训练的基于Trasnformer的双向编码器BERT表示技术提取文本中的每个词向量,然后过滤得到其中属于名词短语的词向量为文本特征Fp;
2)多模态交互:使用文本特征FP作为卷积核在图像特征Fv上进行卷积得到目标实例的掩码M0;
3)坐标引导聚合CGA:对于PNS任务,有L层CGA模块,对于第/层CGA,经过多头的MaskedCross Attention得到输出Kl,再与图像特征Fv做卷积得到掩码Ml;其中,注意力的具体算法是使用文本特征Kl-1作为Query,使用图像特征Fv作为Key,在掩码Ml-1的约束下计算得到注意力权重,然后再将Kl-1作为Value和注意力权重相乘得到最终的输出Kl;
4)质心驱使定位BDL:对于PND任务,有L层BDL模块,对于第/层BDL,将第/-1层的图像特征Fv经过一个BottleNeck模块和Sigmoid函数,将图像特征图的通道数变为4,然后使用由步骤3)得到的掩码图的质心坐标去索引这4张特征图上对应点的像素值,作为定位框的左、项、右、底这四个相对质心的偏移量,得到最终的预测框;
5)训练损失:由于NICE方法是一个统一全景叙事分割和全景检测任务的级联框架,所以在计算损失时,需要考虑分割损失和检测损失两部分;对于分割损失,使用BCE损失函数和Dice损失函数作为分割任务的目标函数;对于检测损失,使用Smooth L1损失函数和gIOU损失函数作为检测任务的目标函数。
2.如权利要求1所述统一级联的全景叙事检测与分割方法,其特征在于在步骤1)中,所述图像经过一个特征金字塔网络提取视觉特征为Fv,对于输入图像,利用一个以ResNet-50为骨干网的特征金字塔网络提取图片的多尺度特征p∈{2,3,4,5},考虑到位置信息的重要性,将单独加上位置编码,然后遵循全景特征金字塔网络的做法,将多尺度特征进行融合得到最终的视觉特征Fv∈RH×W×C,其中,
3.如权利要求1所述统一级联的全景叙事检测与分割方法,其特征在于在步骤1)中,对于叙事文本,利用一个预训练的基于Trasnformer的双向编码器表示技术BERT提取文本中的每个词向量,然后过滤得到其中属于名词短语的词向量,并且对于一个名词对应多个词向量的情况,采取平均池化的操作,将多个词向量的平均值作为该名词的特征;将这些名词短语对应的特征然后通过一个线性层进行投射,将它们的维度与视觉特征对齐,得到最终的文本特征其中,fn表示第n个名词短语的特征,N是短语的数量,C是投射后每个短语对应的词向量维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310130117.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冰箱制冷装置及方法
- 下一篇:一种超薄锂带打箔装置