[发明专利]基于递归记忆网络的无监督图像描述模型的生成方法有效

专利信息
申请号: 202010049142.2 申请日: 2020-01-16
公开(公告)号: CN111242059B 公开(公告)日: 2022-03-15
发明(设计)人: 郭丹;宋培培;刘祥龙;汪萌 申请(专利权)人: 合肥工业大学
主分类号: G06V30/40 分类号: G06V30/40;G06F40/211;G06F40/279;G06N3/04;G06N3/08
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 递归 记忆 网络 监督 图像 描述 模型 生成 方法
【说明书】:

发明公开了一种基于递归记忆网络的无监督图像描述模型的生成方法,其步骤包括:1视觉概念提取与单词表的构建;2视觉概念特征的获取;3基于记忆的解码器的处理;4基于记忆的重构器的处理;5在句子语料库上的模型参数优化;6在图像数据集上的模型参数优化。本发明能够在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。

技术领域

本发明属于计算机视觉技术领域,涉及到模式识别、人工智能等技术,具体地说是一种基于递归记忆网络的无监督图像描述模型的生成方法。

背景技术

在多模态信息处理任务中,图像描述生成是一项非常重要的任务,它涉及到计算机视觉和自然语言处理技术的交叉领域。其任务为自动分析输入图像的视觉内容,并生成可以描述图像主要内容的句子或者文本。受机器翻译技术的启发,现有的图像描述生成系统通常遵循一种“编码-解码”框架。具体来说,它先使用卷积神经网络(CNN)提取图像的特征向量,然后使用循环神经网络(RNN)将图像的特征向量解码为句子。这类方法通常是基于大量人工标注的“图像-句子”数据,以完全监督的方式进行训练的。然而,人工标注“图像-句子”数据需要耗费大量的人力、物力和时间。受此限制,现有的图像描述数据集规模较小,例如图像描述基准数据集MSCOCO,仅涵盖了100种对象类别的图像和句子。这一限制使得这种基于有监督方式训练的图像描述系统难以推广到更广泛的场景中。

为了减小图像描述系统对人工标注数据的依赖,有研究者提出了更具挑战性的新任务,即无监督图像描述。无监督图像描述系统只需要单独的图像和文本数据,它可以利用几乎无限量的未标记或弱标记图像,以及随时可用的大型文本语料库。然而,现有的无监督图像描述系统只关注视觉特征与文本特征之间的跨模态对齐,而忽略了对图像视觉语义的理解,影响后续句子生成的准确性和相关性。

发明内容

本发明为了克服现有技术的不足之处,提出一种基于递归记忆网络的无监督图像描述模型的生成方法,以期能实现在完全无监督的情况下获取到可靠的图像描述模型,从而能自动生成高质量、多样、准确的图像描述。

本发明为解决技术问题采用如下技术方案:

本发明一种基于递归记忆网络的无监督图像描述模型的生成方法的特点是按如下步骤进行:

步骤1、视觉概念的提取与单词表的构建:

从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合其中,为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;

从句子语料库中获取任意一个句子其中,si表示句子S中第i个单词,L为句子S的单词总数;

使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合其中,为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;

利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;

步骤2、视觉概念特征v的获取:

步骤2.1、用表示当前输入的视觉概念特征集合,即或CS

步骤2.2、将所述当前输入的视觉概念特征集合中每个视觉概念按照时刻顺序逐一输入到LSTM网络中进行编码;并将LSTM网络的最后一个时刻的隐藏状态作为视觉概念特征v;

步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010049142.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top