[发明专利]一种基于多源协同特征的图像描述生成方法有效

申请号：	202110128180.1	申请日：	2021-01-29
公开（公告）号：	CN112819012B	公开（公告）日：	2022-05-03
发明（设计）人：	孙晓帅;纪荣嵘;骆云鹏	申请（专利权）人：	厦门大学
主分类号：	G06V10/46	分类号：	G06V10/46;G06V10/25;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	厦门南强之路专利事务所(普通合伙) 35200	代理人：	马应森
地址：	361005 福建***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于协同特征图像描述生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于多源协同特征的图像描述生成方法，涉及多源特征提取、强化和融合，属于人工智能技术领域，包括如下步骤：步骤1，采用目标检测器同时提取图像的网格特征和区域特征；步骤2，利用特征的绝对和相对位置信息，辅助模型进行特征理解和两种特征内部的交互和增强；步骤3，利用特征间的几何对齐关系，让两种特征进行交互增强，交换重要的视觉信息，实现更好的视觉表达。此种方法针对传统基于单源特征的图像描述方法缺少场景和细节信息的局限性，提出多源协同特征提取、融合和增强方法，强化视觉先验，从而提高生成描述的准确性。

技术领域

本发明涉及多源特征提取、强化和融合，尤其是涉及一种基于多源协同特征的图像描述生成方法。

背景技术

图像描述生成是为输入图像自动生成描述性语句的任务。图像描述生成任务横跨计算机视觉和自然语言处理两个领域，它的主要挑战不仅在于通过物体识别、场景识别、属性和关系检测等对图像中的对象和关系进行全面理解，还在于生成符合视觉语义的流畅句子。图像描述生成的应用面很广泛，可以帮助自动驾驶领域理解道路情况，也可以帮助视觉障碍者了解所处的环境。

尽管图像描述生成任务充满挑战，经过多年的发展，图像描述生成的仍然取得了很大的进步，在基准数据集和方法上都取得了很大的进展。Lin等人(Lin,T.-Y.；Maire,M.；Belongie,S.；Hays,J.；Perona,P.；Ramanan,D.；Dollar,P.；and Zitnick,C.L.2014.Microsoft coco:Common objects in context.In ECCV.)提出图像描述生成的基准数据集COCO。Vinyals等人(Vinyals,O.；Toshev,A.；Bengio,S.；and Erhan,D.2015.Show and tell:A neural image caption generator.In CVPR.)首次借鉴机器翻译领域的编码器解码器结构作为图像描述生成的一大范式。Anderson等人(Rennie,S.J.；Marcheret,E.；Mroueh,Y.；Ross,J.；and Goel,V.2017.Self-critical sequencetraining for imagecaptioning.In CVPR)提出一种使用目标检测器提供图像先验的方法。Rennie等人(Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.)则使用强化学习方法来解决图像描述生成网络训练和测试时行为不一致的问题。

上述工作为图像描述生成打下了坚实基础。与早期方法中使用的网格特征相比，Anderson等人提出的通过目标检测网络提出了区域特征，因为图像中的大多数显著区域往往都是目标，因此区域特征极大地降低了视觉语义嵌入的难度。尽管取得了巨大的成功，但是区域特征仍然因缺乏上下文信息和细粒度细节而备受诟病。检测到的区域可能没有覆盖整个图像，导致无法正确地描述全局场景。同时，每个区域都由一个单一的特征向量来表示，这不可避免地会丢失大量的对象细节。然而，这些缺点是网格特征的优点，相比之下，网格特征以更零碎的形式覆盖了给定图像的所有内容。

基于这样的背景，本发明选择研究基于多源协同特征的图像描述生成方法，来弥补现有方法中的不足，得到更加准确、精细的图像描述内容，推进图像描述生成的工业化应用的步伐。

发明内容

本发明的目的在于针对传统图像报告生成方法图像特征上的缺点，提出多源特征协同的方法，提取并使用多样的图像特征，以此强化图像先验信息，进行更加准确细致的图像描述生成的一种基于多源协同特征的图像描述生成方法。

本发明包括以下步骤：

1)采用目标检测器同时提取图像的网格特征和区域特征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门大学，未经厦门大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110128180.1/2.html，转载请声明来源钻瓜专利网。