[发明专利]统一级联的全景叙事检测与分割方法在审

专利信息
申请号: 202310130117.0 申请日: 2023-02-17
公开(公告)号: CN116050409A 公开(公告)日: 2023-05-02
发明(设计)人: 纪荣嵘;孙晓帅;杨丹妮;王昊为;纪家沂 申请(专利权)人: 厦门大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/284;G06N3/08;G06N3/0464
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 统一 级联 全景 叙事 检测 分割 方法
【权利要求书】:

1.统一级联的全景叙事检测与分割方法,其特征在于包括以下步骤:

1)多模态编码:给定一段叙事文本和图像对,图像经过一个特征金字塔网络提取视觉特征为Fv;叙事文本通过预训练的基于Trasnformer的双向编码器BERT表示技术提取文本中的每个词向量,然后过滤得到其中属于名词短语的词向量为文本特征Fp

2)多模态交互:使用文本特征FP作为卷积核在图像特征Fv上进行卷积得到目标实例的掩码M0

3)坐标引导聚合CGA:对于PNS任务,有L层CGA模块,对于第/层CGA,经过多头的MaskedCross Attention得到输出Kl,再与图像特征Fv做卷积得到掩码Ml;其中,注意力的具体算法是使用文本特征Kl-1作为Query,使用图像特征Fv作为Key,在掩码Ml-1的约束下计算得到注意力权重,然后再将Kl-1作为Value和注意力权重相乘得到最终的输出Kl

4)质心驱使定位BDL:对于PND任务,有L层BDL模块,对于第/层BDL,将第/-1层的图像特征Fv经过一个BottleNeck模块和Sigmoid函数,将图像特征图的通道数变为4,然后使用由步骤3)得到的掩码图的质心坐标去索引这4张特征图上对应点的像素值,作为定位框的左、项、右、底这四个相对质心的偏移量,得到最终的预测框;

5)训练损失:由于NICE方法是一个统一全景叙事分割和全景检测任务的级联框架,所以在计算损失时,需要考虑分割损失和检测损失两部分;对于分割损失,使用BCE损失函数和Dice损失函数作为分割任务的目标函数;对于检测损失,使用Smooth L1损失函数和gIOU损失函数作为检测任务的目标函数。

2.如权利要求1所述统一级联的全景叙事检测与分割方法,其特征在于在步骤1)中,所述图像经过一个特征金字塔网络提取视觉特征为Fv,对于输入图像,利用一个以ResNet-50为骨干网的特征金字塔网络提取图片的多尺度特征p∈{2,3,4,5},考虑到位置信息的重要性,将单独加上位置编码,然后遵循全景特征金字塔网络的做法,将多尺度特征进行融合得到最终的视觉特征Fv∈RH×W×C,其中,

3.如权利要求1所述统一级联的全景叙事检测与分割方法,其特征在于在步骤1)中,对于叙事文本,利用一个预训练的基于Trasnformer的双向编码器表示技术BERT提取文本中的每个词向量,然后过滤得到其中属于名词短语的词向量,并且对于一个名词对应多个词向量的情况,采取平均池化的操作,将多个词向量的平均值作为该名词的特征;将这些名词短语对应的特征然后通过一个线性层进行投射,将它们的维度与视觉特征对齐,得到最终的文本特征其中,fn表示第n个名词短语的特征,N是短语的数量,C是投射后每个短语对应的词向量维度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310130117.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top