[发明专利]基于知识迁移的多模态循环神经网络的图像文本描述方法有效

申请号：	201611236901.6	申请日：	2016-12-28
公开（公告）号：	CN106650756B	公开（公告）日：	2019-12-10
发明（设计）人：	胡海峰;张俊轩;王腾;杨梁;王伟轩	申请（专利权）人：	广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62
代理公司：	44102 广州粤高专利商标代理有限公司	代理人：	林丽明
地址：	528300 广东省佛山市顺德区大良***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于知识迁移多模态循环神经网络图像文本描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法，该方法通过多模态单元中的知识转移模型，很好地利用了现成图像分类器对大多数对象的识别能力以及现成语料库中的语法结构和语义关联性，能更准确地描述出图像中的目标对象以及使生成的句子描述语法结构更丰富，语义贴切，可读性更强。

技术领域

本发明涉及机器视觉与模式识别领域，更具体地，涉及一种基于知识迁移的多模态循环神经网络的图像文本描述方法。

背景技术

近年来，循环神经网络的自然语言处理以及基于卷积神经网络的图像分类处理的快速发展，使得应用深度神经网络进行的图像理解技术广泛被人们采用。自动生成图像文本描述作为联系着两大人工智能领域的技术(计算机视觉以及自然语言处理)，吸引了越来越多的人关注以及研究。

对于普通的图像文本描述生成，目前已取得了较好的效果。如2015年，Junhua Mao等人提出了一种基于多模态循环神经网络(m-RNN)的图像描述模型，这个网络模型可以将图像信息与语言模型的信息结合在一个多模态单元，使生成的句子语义能更符合图像表达的信息，而且采用LSTM模型能改善句子的语法结构，增强句子的可读性。

但由于该方法只能应用于现有的图像与文本描述成对匹配的数据集，对于一些图像中的一些没有在文本描述数据字中出现的新的对象，该方法无法识别出来，导致了生成的句子描述的信息可能与图像呈现的信息不相关。而且由于图像与文本描述成对匹配的数据集有限，无法覆盖大部分图像中的对象，并且此类数据集制作时，图像信息要求与文本信息相匹配，需要人工的制作，因此制作此类数据集成本较高。

发明内容

本发明提供一种基于知识迁移的多模态循环神经网络的图像文本描述方法，该方法可满足大部分成对匹配训练集外的新对象的识别。

为了达到上述技术效果，本发明的技术方案如下：

一种基于知识迁移的多模态循环神经网络的图像文本描述方法，包括以下步骤：

S1：在服务器中训练图像语义分类器；

S2：在服务器中训练语言模型；

S3：在服务器中预训练文本描述生成模型并生成描述句子。

进一步地，所述步骤S1的具体过程如下：

S11：采集多种图像数据集：下载现成的数据集，包括ImageNet和MSCOCO，由于MSCOCO是一种图像与文本描述成对匹配的数据集，取其图像部分；

S12：使用的卷积神经网络，对采集的数据集中的每一张图片提取相应的图像特征f_I；

S13：制作标签集，选取1000个最常见的单词即覆盖了90％图像与文本描述成对匹配的训练集中使用到的单词，以及加上ImageNet图像分类中没有出现在成对匹配训练集中的对象的词，将两者组成需要用到的标签词库；

S14：利用上个步骤制作好的标签词库，对每张图片采用多示例学习的方法为其添加上多个视觉概念标签：