[发明专利]图像故事描述生成方法、装置、计算机设备和存储介质有效
申请号: | 202210317639.7 | 申请日: | 2022-03-29 |
公开(公告)号: | CN114419402B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 谢毓湘;闫洁;宫铨志;魏迎梅;蒋杰;康来;栾悉道;邹诗苇;李竑赋 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06F40/295;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 故事 描述 生成 方法 装置 计算机 设备 存储 介质 | ||
1.一种图像故事描述生成方法,其特征在于,所述方法包括:
构建数据集;所述数据集中包括多个图像样本以及每个图像样本对应的问题描述;每个所述问题描述至少包括疑问词和名词;
根据所述数据集,训练预先构建的图像描述生成模型,以使所述图像描述生成模型在输入图像时,可以输出图像对应的问题描述;
将待描述图像输入训练好的图像描述生成模型,得到所述待描述图像的问题描述;
通过命名实体识别方式从所述待描述图像的问题描述中提取疑问词-名词对,将所述疑问词-名词对输入经过预先训练的长文本故事生成模型,得到故事文本;
所述构建数据集,包括:
获取图像样本,确定所述图像样本的疑问词,以及根据所述图像样本,确定与所述图像样本相关联的名词;所述疑问词包括:When、Where、What、Why以及How;
根据每一所述疑问词和对应的所述名词,构建问题描述;所述问题描述包括:When问题描述、Where问题描述、What问题描述、Why问题描述以及How问题描述;
根据多个图像样本及其对应的所述问题描述,构建数据集;
训练长文本故事生成模型的方式包括:
通过爬虫从互联网获取英文故事语料库;英文故事语料库包括多个英文故事;
从所述英文故事中提取疑问词-名词对,将英文故事中的疑问词-名词对输入至初始的长文本故事生成模型中,输出预测故事文本;根据所述预测故事文本和所述英文故事的差值,采用均方误差损失函数对所述长文本故事生成模型进行训练;
根据所述数据集,训练预先构建的图像描述生成模型,包括:
将图像样本输入至预先构建的图像描述生成模型中;所述图像描述生成模型包括:特征提取层、编码器和解码器;
通过所述特征提取层对所述图像样本进行特征提取,得到图像特征;
将所述图像特征输入至所述编码器,得到所述图像样本对应的特征向量;
将所述图像样本对应的问题描述进行词嵌入后和所述特征向量分别输入至所述解码器,得到所述特征向量和所述图像样本对应的问题描述进行词嵌入后结果的差值信息;
根据所述差值信息,采用交叉熵损失函数训练预先构建的图像描述生成模型;
所述问题描述至少包括疑问词和名词;所述名词是通过对图像联想学习得到的与图像上的要素相关的名词。
2.根据权利要求1所述的方法,其特征在于,所述特征提取层包括:全局特征提取层和局部特征提取层;
所述通过所述特征提取层对所述图像样本进行特征提取,得到图像特征,包括:
通过所述全局特征提取层对所述图像样本进行特征提取,得到全局图像特征;
通过所述局部特征提取层对所述图像样本进行特征提取,得到局部图像特征。
3.根据权利要求2所述的方法,其特征在于,将所述图像特征输入至所述编码器,得到所述图像样本对应的特征向量,包括:
将所述全局图像特征和所述局部图像特征进行拼接融合之后,输出至所述编码器中进行编码,得到所述图像样本对应的特征向量。
4.根据权利要求3中所述的方法,其特征在于,所述全局特征提取层为深度残差网络;所述局部特征提取层为Fast RCNN网络;所述编码器和所述解码器分别为Transformer编码器和Transformer解码器。
5.根据权利要求1所述的方法,其特征在于,所述根据所述差值信息,采用交叉熵损失函数训练预先构建的图像描述生成模型包括:
根据所述差值信息,得到交叉熵损失函数为:
其中,L(θ)表示交叉熵损失函数,θ表示模型中的参数,表示当前预测输出单词的概率分布,表示从第1时刻到第i-1时刻所输出的全部单词,表示L2正则化项;
采用所述交叉熵损失函数训练预先构建的图像描述生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210317639.7/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序