[发明专利]一种基于CNN-LSTM的图像字幕压缩方法在审

专利信息
申请号: 202110257657.6 申请日: 2021-03-09
公开(公告)号: CN113326840A 公开(公告)日: 2021-08-31
发明(设计)人: 王小华;令狐彬;焦璐璐;宋晓晨 申请(专利权)人: 山西三友和智慧信息技术股份有限公司
主分类号: G06K9/32 分类号: G06K9/32;G06F16/174;G06N3/04;G06N3/08
代理公司: 深圳科润知识产权代理事务所(普通合伙) 44724 代理人: 李小妮
地址: 030000 山西省*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 cnn lstm 图像 字幕 压缩 方法
【权利要求书】:

1.一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:包括下列步骤:

S100、数据采集:下载公共数据集flickr8k,对获取图像进行数据标注,根据图像内容进行描述,完成数据集构建;

S200、数据预处理:对数据集进行预处理,包括尺度缩放、数据归一化和数据划分三种方式;

S300、模型构建:采用CNN-LSTM模型用于数据训练,模型由编码器VGG16和解码器LSTM组成,编码器获取提取的特征,并使用特征来训练解码器,同时将部分不太重要的权值进行修剪,并将解码器使用的LSTM模型进行量化处理;

S400、模型评价:当模型的损失函数不再降低之后,保存模型,并进行评价。

2.根据权利要求1所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S100数据采集中,公共数据集flickr8k数据集中包含8000张图像,每张图像都与五个不同的标题进行配对。

3.根据权利要求2所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S200数据预处理中,所述尺度缩放将数据划分后的所有数据进行缩放,按其大小比例调整为统一尺寸;所述数据归一化对所有数据进行归一化操作,方式为对每个像素点除以225,所述数据划分使用交叉验证法将数据集进行划分,数据集随机选取90%的样本作为训练集,剩余10%的样本作为测试集。

4.根据权利要求3所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S300模型构建中,编码器VGG16从输入图像中提取有意义的特征,采用渐进式存储,将经过修剪预先训练的VGG16模型所提取的特征分别存储,然后将特征输入解码器中,修剪方式为将不太重要的权值进行零屏蔽,相对于损失函数的梯度,修剪有不同的层次,一般从50%到95%不等,本模型中,第0个epoch数之后,权重值小于阈值的掩模被设置为零,公式为:其中t0是一个超参数;Si的下界通常为0%;sf的上界通常为50%到95%;二值掩模每Δt步更新一次,逐渐训练网络以达到最终的稀疏级别;n表示epoch。

5.根据权利要求4所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S300模型构建中,解码器LSTM根据从编码器提取的图像特征为图像生成标题,使用标准的预处理程序处理文本,将其标记化,特征提取包括一个包含256个神经元的稠密层和一个遗漏层,文本提取部分对训练字幕进行预处理,之后为嵌入层和一个包含256个神经元的LSTM层,解码器层将特征层和文本提取层的输出合并,然后为两个密集层,其中一个层有256个神经元,另一个层有与词汇量一样多的神经元,使用渐进式加载的方法来训练解码器,通过创建一个数据生成器函数,从整个训练集获取训练数据样本用于节省内存。

6.根据权利要求5所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S300模型构建中,量化方式为将网络与修剪结合起来进行量化,训练后量化将权值从浮点表示转换为精度为8位的整数表示,激活也被转换为int8格式,并使用基于整数的权重进行进一步的计算,其公式如下:Valuefloat32=scale×(Valueint8-Zeropoint),其中scale是浮点精度的正实数,当Zeropoint为0时,每个Valueint8的值在[-127,127]范围内;当Zeropoint在[-128,127]范围内时,每个Valueint8的值也在[-128,127]范围内。

7.根据权利要求6所述的一种基于CNN-LSTM的图像字幕压缩方法,其特征在于:所述S400模型评价中,评价指标使用BLEU对模型效果进行评价,公式为其中c表示译文的句子长度;r表示参考译文的句子长度;N代表总共的单词元组,wn是指当前单词元组下所占有的权重比,所有权重比相加为1;pn代表预测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110257657.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top