[发明专利]一种基于深度强化学习自适应式生成图像描述的方法在审
申请号: | 202010550939.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111783852A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 李建强;吴敬怡;董大强;冯慧 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 自适应 生成 图像 描述 方法 | ||
1.一种基于深度强化学习自适应式生成图像描述的方法,其特征在于,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
2.根据权利要求1所述的方法,其特征在于:所述步骤4中的决策模块具体实现为——令作为生成下一个单词的决策概率分布;计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数;式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积;式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数;式(4)表示ut经过argmax函数得到最高概率索引nt;计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
3.根据权利要求1所述的方法,其特征在于:步骤5中若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt;
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数;此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550939.0/1.html,转载请声明来源钻瓜专利网。