[发明专利]统一级联的全景叙事检测与分割方法在审

专利信息
申请号: 202310130117.0 申请日: 2023-02-17
公开(公告)号: CN116050409A 公开(公告)日: 2023-05-02
发明(设计)人: 纪荣嵘;孙晓帅;杨丹妮;王昊为;纪家沂 申请(专利权)人: 厦门大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/284;G06N3/08;G06N3/0464
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 统一 级联 全景 叙事 检测 分割 方法
【说明书】:

统一级联的全景叙事检测与分割方法,涉及全景叙事检测与分割。1)多模态编码;2)多模态交互;3)坐标引导聚合CGA;4)质心驱使定位BDL;5)训练损失。采用基于动态内核的方式构建统一的框架,为每个名词短语构建一个可学习的内核,预测其对应的掩码和边界框。针对预测冲突问题,提出两种新的级联模块来连续处理分割和检测,以实现跨任务对齐,即坐标引导聚合CGA模块和质心驱动定位BDL模块,利用分割掩码的质心作为锚点,将分割和检测串联连接,使两个任务自然对齐。两个模块的联合相互促进各自性能,即掩码的位置信息向前驱动BDL模块产生准确的方框,BDL模块的反向引导促进CGA模块在训练过程中区分不同实例的能力。

技术领域

发明涉及全景叙事检测与分割,尤其是涉及一种基于坐标引导聚合和质心驱动定位的统一级联的全景叙事检测与分割方法。

背景技术

作为多模式社区的常见任务,指向性目标分割(RES)和指向性目标检测(REC)任务旨在根据对相关短语的理解来定位一个目标。对于REC任务,早期的方法[1-3]通过RCNN[4]和YOLO[5-7]等检测模型预先获得大量候选区域,然后将这些区域的特征与文本特征进行比较选择最合适的框作为输出。最近的方法[8,9]预先进行多模态特征的融合,然后进行检测,从而实现实现端到端的训练。对于RES任务,以前使用分割模型的方法[10,11]和两阶段REC方法类似。在此之后,出现一批细化分割掩码的一阶段方法[12,13],它取得了更好的性能。但是,RES和REC这两个任务都只能定位出一个目标,忽视背景的因素,忽视自然语言和图像之间的多对多关系。

全景叙事分割(PNS)和全景叙事检测(PND)是两个高度相关的任务,在给定的图像和相关的叙述文本,它分割并检测出文本中所含名词短语对应的图像中多个全景目标实例。对于PND任务,早期的方法[14-18]遵循两阶段方法,将其先视为检测任务,然后是匹配任务,这种方法会导致结果过度依赖于目标检测的结果。在此之后,出现端到端方法,它们通常首先进行文本和图像的特征融合,然后使用检测头检测目标[19]。此外,还有一些方法依赖于图神经网络来建模对象之间的关系,也依赖于现有的多锚检测范式[20]。对于PNS任务,它和PND任务最大的区别在于它是像素级的定位任务,需要为图像中每个像素点进行分类,从而生成全局的、统一的分割图像。冈萨雷斯等人[21]首先探索该任务,并提出一个两阶段的方法,它使用分割模型[22]生成掩码,然后再将掩码与短语进行匹配。再在此之后,一种类似于KNet[23]结构的端到方法PPMN[24],取得良好的性能。

多任务学习是解决两个高度相关任务的常用范式。分割和检测任务的本质在于对语义信息的理解,因此在多任务学习是一种非常自然的思想。对于REC和RES任务,多任务联合学习的方法[19,25]并不少见,这些多任务模型通常分别采用双分支范式来处理检测和分割,尽管共享多模态骨干网络,但它们的推理分支仍然相对分离,这就会导致预测冲突的难题,即联合模型预测的定位框和分割的内容指向的不是同一个目标实例。因此,在MCN方法[19]需要繁琐的额外的跨任务的对齐和后处理操作来解决这个问题。

然而,对于PNS和PND任务,存在多对多的跨模态对齐,直接进行多任务学习的方法并不是一件简单的事情,若直接采取像MCN方法那样范式将会遇到两个问题。一方面,在PNS和PND任务中,预测的目标不仅是单数名词,而且是复数和不可数名词,后处理困难;另一方面,由于存在多个目标实例,直接使用现有的多任务范式意味着多模态预测的推理成本随着目标数量的线性增加。之前的方法[26]通常都是先通过检测算法获取定位框,然后在定位框范围内进行像素级的分割,这样会导致分割的结果过度依赖于检测器的性能。

参考文献:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310130117.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top