[发明专利]基于视觉与语义注意力相结合策略的图像描述方法及系统有效
申请号: | 201710806029.2 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107563498B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 王雷全;褚晓亮;魏燚伟;吴春雷;崔学荣 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/46 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 266580 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视觉 语义 注意力 相结合 策略 图像 描述 方法 系统 | ||
1.基于视觉与语义注意力相结合策略的图像描述方法,其特征是,包括:
步骤(1):利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V;
步骤(2):建立视觉注意力模型,判断是否是首次执行,若是,则将步骤(1)的图像特征V输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;若不是,则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词Wt-1输入到视觉注意力模型中,得到经过视觉注意力模型处理后的图像特征Vatt;
步骤(3):建立第一个LSTM网络,称之为LSTM1网络,LSTM1网络是指供视觉注意力模型使用的LSTM网络;将LSTM1网络的t-1时刻的隐藏层状态和经过视觉注意力模型处理以后的图像特征Vatt送入LSTM1网络,得到视觉注意力模型在t时刻产生的单词Wt';
步骤(4):建立语义注意力模型,将视觉注意力模型在t时刻产生的单词Wt'与预定义的标签A一起输入到语义注意力模型中;得到语义注意力模型在t时刻生成的语义信息Et;所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词;所述关键词为图像对应的语义信息,所述关键词包括名词和动词;
步骤(5):建立第二个LSTM网络,称之为LSTM2网络,LSTM2网络是指供语义注意力模型使用的LSTM网络;将LSTM2网络在t-1时刻的隐藏层的状态和语义注意力模型在t时刻生成的语义信息Et输入到LSTM2网络中,得到语义注意力模型在t时刻生成的单词Wt;
步骤(6):判断是否检测到停止标识,若是,则将得到的所有单词进行串联组合,产生图像描述;若不是,则用步骤(5)得到的单词Wt更新步骤(2)中的Wt-1;同时返回步骤(2),继续执行步骤(2)-(5),直至检测到停止标识;
所述步骤(4)语义注意力处理函数:
对视觉注意力模型在t时刻产生的单词Wt'和语义辅助的标签A进行权重β的分配:
其中,(Wt',A)表示将Wt'与A连接为一个矩阵;表示语义注意力模型中第i个词在t时刻的权重;
对β进行归一化处理:
表示语义注意力模型中第k个词在t时刻的权重,z表示标签里的词的个数;
生成对当前句子语义的状态Et:
所述步骤(5)的公式为:
2.如权利要求1所述的基于视觉与语义注意力相结合策略的图像描述方法,其特征是,所述步骤(2)的公式:
Vatt=fvatt(V),t=0; (1-1)
Vatt=fvatt(V,Wt-1),t≥1; (1-2)
其中,fvatt(·)表示视觉注意力处理函数,t为整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710806029.2/1.html,转载请声明来源钻瓜专利网。