[发明专利]基于递归记忆网络的无监督图像描述模型的生成方法有效
申请号: | 202010049142.2 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111242059B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 郭丹;宋培培;刘祥龙;汪萌 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06F40/211;G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 递归 记忆 网络 监督 图像 描述 模型 生成 方法 | ||
1.一种基于递归记忆网络的无监督图像描述模型的生成方法,其特征是按如下步骤进行:
步骤1、视觉概念的提取与单词表的构建:
从图像数据集中获取任意一个图像I,使用目标检测模型Faster-RCNN作为视觉概念检测器,检测所述图像I中的视觉概念,得到所述图像I的视觉概念集合其中,为所述图像I中第m个视觉概念,KI为所述图像I中包含的视觉概念总数;
从句子语料库中获取任意一个句子其中,si表示句子S中第i个单词,L为句子S的单词总数;
使用所述视觉概念检测器的分类标签构造视觉概念词典Vocv;并将所述句子S与所述视觉概念词典Vocv的交集作为所述句子S的视觉概念集合其中,为所述句子S中的第n个视觉概念,KS为所述句子S中包含的视觉概念总数;
利用所述句子语料库中的所有单词以及所述视觉概念词典Vocv中的所有单词构建单词表,并将所述单词表中所有单词按照出现次数从高到低进行编号,从而构建单词索引表Voc;
步骤2、视觉概念特征v的获取:
步骤2.1、用表示当前输入的视觉概念特征集合,即或CS;
步骤2.2、将所述当前输入的视觉概念特征集合中每个视觉概念按照时刻顺序逐一输入到LSTM网络中进行编码;并将LSTM网络的最后一个时刻的隐藏状态作为视觉概念特征v;
步骤3、所述无监督图像描述模型中基于记忆的解码器的处理:
步骤3.1、定义当前时刻为t,并初始化t=0;
在t时刻,根据式(1)获取t-1时刻的单词特征xt-1;
xt-1=Wewt-1 (1)
式(1)中,We为需要学习的词嵌入矩阵;wt-1为t-1时刻所述无监督图像描述模型的期望输出;当时,令为所述无监督图像描述模型t-1时刻输出的单词;当时,令wt-1=st-1,st-1为所述句子S中第t-1个单词;根据t-1时刻所述无监督图像描述模型的期望输出wt-1所对应的单词在所述单词索引表Voc中的索引,将t-1时刻所述无监督图像描述模型的期望输出wt-1表示为one-hot向量;
步骤3.2、利用式(2)将所述视觉概念特征v与t-1时刻的单词特征xt-1拼接为特征矩阵Ft-1;
Ft-1=[v;xt-1] (2)
式(2)中,[;]表示按行拼接操作;
利用式(3)在所述特征矩阵Ft-1上实施多头自注意力操作φf,得到第hf个自注意力操作下的融合矩阵从而得到t时刻的融合矩阵其中,[:]表示按列拼接操作;
式(3)中,与分别表示所述多头自注意力操作φf中第hf个自注意力操作下的三个需要学习的权重矩阵,(·)T表示矩阵转置操作,df为的维度;Hf表示所述多头自注意力操作φf的抽头数;
步骤3.3、利用式(4)将所述t时刻的融合矩阵转换为t时刻的融合向量ft;
式(5)中,FC(·)表示全连接层操作;
步骤3.4、利用式(5)在t时刻的融合向量ft与基于记忆的解码器t-1时刻的记忆状态Mt-1上实施多头自注意力操作φm,得到第hm个自注意力操作下的注意力矩阵从而得到t时刻的注意力矩阵
式(5)中,与分别表示所述多头自注意力操作φm中第hm个自注意力操作下的三个需要学习的权重矩阵;dm为的维度;Hm表示所述多头自注意力操作φm的抽头数;
步骤3.5、利用式(6)对所述t时刻的注意力矩阵和所述基于记忆的解码器t-1时刻的记忆状态Mt-1进行多层感知机MLP和正则化LN操作,得到当前t时刻的记忆矩阵
步骤3.6、利用式(7)从所述基于记忆的解码器t-1时刻的记忆状态Mt-1及所述当前t时刻的记忆矩阵中提取有用的信息,得到基于记忆的解码器当前时刻t的记忆状态Mt;
式(11)中,⊙表示点乘;gi,gf分别表示所述基于记忆的解码器的输入门与遗忘门;并有:
gi=σ(Wi·ft+Ui·tanh(Mt-1)+bi) (8)
gf=σ(Wf·ft+Uf·tanh(Mt-1)+bf) (9)
式(8)~(9)中,Wi,Wf,Ui,Uf是四个需要学习的权重矩阵,bi,bf是两个需要学习的偏置向量,表示sigmoid激活函数;
步骤3.7、利用式(10)得到t时刻的输出单词
式(10)中,Wo为需要学习的权重矩阵;ot表示所述基于记忆的解码器的输出,且ot=Mt;
步骤4、所述无监督图像描述模型中基于记忆的重构器的处理:
步骤4.1、利用式(11)在t-1时刻基于记忆的重构器的隐藏状态zt-1与基于记忆的解码器t时刻的记忆状态Mt上实施多头自注意力操作φr,得到基于记忆的重构器中第hr个自注意力操作下的注意力向量从而得到t时刻的注意力向量
式(11)中,与分别表示多头自注意力操作φr中第hr个自注意力操作下的三个需要学习的权重矩阵;dr为的维度;Hr表示多头自注意力操作φr的抽头数;
步骤4.2、将t+1赋值给t,返回步骤3顺序执行,直到t=L为止;基于记忆的重构器最后一个时刻的注意力向量作为视觉概念重构特征
步骤5、在句子语料库上对无监督图像描述模型的参数优化:
步骤5.1、令
步骤5.2、利用式(12)计算无监督图像描述模型在句子语料库上的损失值£S;
式(12)中,α为设置的超参数;为在已知句子S前t-1个单词的条件下,所述无监督图像描述模型t时刻生成的单词与句子S第t个单词相同的条件概率;为L-2范数;
步骤5.3、利用随机梯度下降法对无监督图像描述模型在句子语料库上的损失值£S进行优化求解,使£S达到最小,从而得到句子语料库上的最优模型;
步骤6、在图像数据集上对最优模型的参数优化:
步骤6.1、使用CNN网络提取所述图像I的全局特征f;
步骤6.2、获取步骤5中最优模型的参数,并令
步骤6.3、利用式(13)计算最优模型在图像数据集上的损失值£I;
式(13)中,[x]+=max(x,0),b和β为设置的超参数;表示与全局特征f语义最不相关的任一视觉概念重构特征,且Ω表示所述图像数据集中所有图像的全局特征集合Ω;ω表示所述全局特征集合Ω中任一全局特征;f′表示与视觉概念重构特征语义最不相关的任一全局特征,且表示所述图像数据集中所有图像对应的视觉概念重构特征集合;η表示所述视觉概念重构特征集合中任一视觉概念重构特征;
步骤6.4、利用随机梯度下降法对最优模型在图像数据集上的损失值£I进行优化求解,使£I达到最小,从而得到图像数据集上的最优模型并作为最终的无监督图像描述模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010049142.2/1.html,转载请声明来源钻瓜专利网。