[发明专利]基于视觉与语义注意力相结合策略的图像描述方法及系统有效

申请号：	201710806029.2	申请日：	2017-09-08
公开（公告）号：	CN107563498B	公开（公告）日：	2020-07-14
发明（设计）人：	王雷全;褚晓亮;魏燚伟;吴春雷;崔学荣	申请（专利权）人：	中国石油大学（华东）
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/46
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	黄海丽
地址：	266580 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视觉语义注意力相结合策略图像描述方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于视觉与语义注意力相结合策略的图像描述方法，其特征是，包括：

步骤(1)：利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V；

步骤(2)：建立视觉注意力模型，判断是否是首次执行，若是，则将步骤(1)的图像特征V输入到视觉注意力模型中，得到经过视觉注意力模型处理后的图像特征V_att；若不是，则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词W_t-1输入到视觉注意力模型中，得到经过视觉注意力模型处理后的图像特征V_att；

步骤(3)：建立第一个LSTM网络，称之为LSTM₁网络，LSTM₁网络是指供视觉注意力模型使用的LSTM网络；将LSTM₁网络的t-1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征V_att送入LSTM₁网络，得到视觉注意力模型在t时刻产生的单词W_t'；

步骤(4)：建立语义注意力模型，将视觉注意力模型在t时刻产生的单词W_t'与预定义的标签A一起输入到语义注意力模型中；得到语义注意力模型在t时刻生成的语义信息E_t；所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词；所述关键词为图像对应的语义信息，所述关键词包括名词和动词；

步骤(5)：建立第二个LSTM网络，称之为LSTM₂网络，LSTM₂网络是指供语义注意力模型使用的LSTM网络；将LSTM₂网络在t-1时刻的隐藏层的状态和语义注意力模型在t时刻生成的语义信息E_t输入到LSTM₂网络中，得到语义注意力模型在t时刻生成的单词W_t；

步骤(6)：判断是否检测到停止标识，若是，则将得到的所有单词进行串联组合，产生图像描述；若不是，则用步骤(5)得到的单词W_t更新步骤(2)中的W_t-1；同时返回步骤(2)，继续执行步骤(2)-(5)，直至检测到停止标识；

所述步骤(4)语义注意力处理函数：

对视觉注意力模型在t时刻产生的单词W_t'和语义辅助的标签A进行权重β的分配：

其中，(W_t',A)表示将W_t'与A连接为一个矩阵；表示语义注意力模型中第i个词在t时刻的权重；

对β进行归一化处理：

表示语义注意力模型中第k个词在t时刻的权重，z表示标签里的词的个数；

生成对当前句子语义的状态E_t：

所述步骤(5)的公式为：

2.如权利要求1所述的基于视觉与语义注意力相结合策略的图像描述方法，其特征是，所述步骤(2)的公式：

V_att＝f_vatt(V),t＝0； (1-1)

V_att＝f_vatt(V,W_t-1),t≥1； (1-2)