[发明专利]一种基于生成对抗网络的图像描述文本生成方法有效
| 申请号: | 202110206288.8 | 申请日: | 2021-02-24 |
| 公开(公告)号: | CN112818159B | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 陆佳妮;程帆 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F40/126;G06F40/194;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 对抗 网络 图像 描述 文本 方法 | ||
本发明涉及一种基于生成对抗网络的图像描述文本生成方法,包括以下步骤:1)构建用以实现对图像进行特征提取的编码器;2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;4)构建基于卷积神经网络的判别器并进行训练;5)共同训练生成器与判别器;6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。与现有技术相比,本发明具有提高生成的文本的客观评测得分、可解释性好和多样性等优点。
技术领域
本发明涉及人工智能方向中的计算机视觉和自然语言处理领域,尤其是涉及一种基于生成对抗网络的图像描述文本生成方法。
背景技术
随着人工智能技术的成熟,计算机视觉、自然语言处理等领域都有了飞速发展,图像描述任务要求机器可以自动为图像生成描述性的语句,因此图像描述模型需要同时具备图像理解能力和自然语言理解能力,这依赖于模型对图像表示和文本表示的获取与处理。
现有主流的图像描述方法包括以下步骤:
1)利用编码器提取出图像特征;
2)利用解码器和注意力机制,解码输入的特征,生成文本;
3)用REINFORCE这一强化学习算法进一步优化生成器。
上述图像描述生成方法框架较为简单,在步骤1)中使用的编码器通常只是一个简单的卷积神经网络,输入图像后,输出一个完整的图像特征,在这个完整特征上使用注意力机制,相当于将图像按大小相同的网格进行了划分,而一个物体被网格切分后,可能是不完整的,由此生成的描述文本是不精确的;在步骤2)中的注意力机制只用于图像特征上,没有利用好文本自身的特征,在自然语言中,句子中通常有一些连接词,它们的生成与图像本身无关;在步骤3)中只用到了强化学习算法来优化生成器,而生成对抗网络可以进一步优化生成器。图像描述生成方法单纯依靠编码器-解码器的架构和全局的注意力机制,在生成文本描述时,仍有许多不足:用词不够准确,在客观评价指标上的评分较低,提升不明显。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于生成对抗网络的图像描述文本生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于生成对抗网络的图像描述文本生成方法,包括以下步骤:
1)构建用以实现对图像进行特征提取的编码器;
2)对文本进行词嵌入,并构建用以生成图像描述文本的解码器;
3)根据极大似然估计对由编码器和解码器共同构成的生成器进行预训练;
4)构建基于卷积神经网络的判别器并进行训练;
5)共同训练生成器与判别器;
6)将待生成描述文本的测试图像数据输入训练好的生成器中,输出生成的描述文本。
所述的步骤1)中,所述的编码器为基于ResNet-101的Faster R-CNN模型,对于给定的一张图像,编码器从该图像中检测到的n个物体,将图像编码为n个目标区域的特征集合V={v1,…vi…,vn},其中,vi为目标选区i经过平均池化层后的特征向量。
所述的步骤2)中,采用GloVe模型对文本进行词嵌入,得到词嵌入后的文本向量,即词嵌入表示。
所述的步骤2)中,解码器由一个双层的长短期记忆神经网络模型和两个注意力模块组成,具体包括作为第一层的注意力生成LSTM层、作为第二层的语言生成LSTM层以及设置在注意力生成LSTM层与语言生成LSTM层之间的两个用以生成视觉哨兵向量的自适应注意力模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110206288.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吊具水平限位机构
- 下一篇:一种管道支吊架检测装置





