[发明专利]一种图说生成方法及装置在审
| 申请号: | 201710283733.4 | 申请日: | 2017-04-26 |
| 公开(公告)号: | CN108805260A | 公开(公告)日: | 2018-11-13 |
| 发明(设计)人: | 黄欢;赵刚 | 申请(专利权)人: | 上海荆虹电子科技有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F17/27;G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
| 地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 递归神经网络 语句 全局特征 目标图像 训练集 卷积神经网络 图文数据库 损失函数 图像 提取目标图像 特征输入 语句形式 语言模型 可变的 构建 输出 优化 | ||
本发明提供了一种图说生成方法及装置。该方法包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将训练集的图像的全局特征以及描述语句特征输入至递归神经网络,对递归神经网络进行训练;根据递归神经网络的输出构建损失函数,根据损失函数对递归神经网络的参数进行优化;采用预先训练的卷积神经网络提取目标图像的全局特征,将目标图像的全局特征输入至递归神经网络,生成与目标图像对应的描述语句。本发明实施例采用递归神经网络作为语言模型,避免了现有技术生成的描述语句形式单一的缺陷,能够针对目标图像生成描述丰富、长短可变的描述语句。
技术领域
本发明涉及多模态融合技术领域,具体涉及一种图说生成方法及装置。
背景技术
随着人工智能从概念到逐渐进入人类的生活,并逐渐成为人类生活中的一部分,计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破,为了实现根据图像自动生成描述语句(描述语句中包括多个单词),研究设计了图说生成方法。
现有的图说生成方法中,提前定义图像中的目标、属性等概念,同时定义描述语句的模板,在测试阶段采用检索排序的方式生成图说。现有的图说生成方法受定义模板概念数的影响,生成的图说体现的概念非常有限,描述语句形式单一。
发明内容
本发明实施例提供一种图说生成方法及装置,用于解决现有的图说生成方法生成的描述语句形式单一的问题。
本发明实施例提供了一种图说生成方法,包括:
采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;
对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;
将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;
根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;
采用所述预先训练的卷积神经网络提取目标图像的全局特征,将所述目标图像的全局特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。
可选地,所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征,包括:
根据如下公式提取图文数据库中训练集的图像的全局特征:
v=WI·[Fc(I)]+bI
其中,v表示图像I的全局特征;WI表示权重矩阵,bI表示偏置;Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。
可选地,对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征,包括:
根据如下公式获取描述语句特征:
st=Ws·wt,t∈{1,2,…,T}
其中,st表示图像I的描述语句特征;Ws表示权重矩阵;所述图像I的描述语句S=(w1,w2,…,wT),T为描述语句中单词的个数;表示该描述语句的第i个单词,N0为所述图文数据库中的单词总数;wi为单词one-hot向量。
可选地,所述递归神经网络为门控递归神经网络GRU。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海荆虹电子科技有限公司,未经上海荆虹电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710283733.4/2.html,转载请声明来源钻瓜专利网。





