[发明专利]一种基于非成对学习的图像描述自动评价方法有效
| 申请号: | 202010054911.8 | 申请日: | 2020-01-17 |
| 公开(公告)号: | CN111291558B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 赵仲秋;孙月林 | 申请(专利权)人: | 合肥工业大学 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/0442;G06N3/0464 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230009 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 成对 学习 图像 描述 自动 评价 方法 | ||
1.一种基于非成对学习的图像描述自动评价方法,其特征包括以下步骤:
步骤1、提取被描述图像的视觉特征;
步骤1.1、获取图像描述数据集,并从所述图像描述数据集中获取任意一幅图像I;
步骤1.2、使用卷积神经网络提取所述图像I的视觉特征x,再将所述视觉特征x嵌入到d维向量中,得到图像特征向量f(x)∈Rd;
步骤2、描述语句的预处理和文本特征提取;
步骤2.1、在所述图像描述数据集上利用图像描述生成模型生成描述语句集,并对所述描述语句集中所有的语句进行分词处理,得到分割后的单词并进行词嵌入处理,从而得到词向量表,利用所述词向量表中相应的词向量表示所述描述语句集中的语句;
步骤2.2、从所述描述语句集中获取所述图像I对应的描述语句,记为S=[s1,...,st,...,sn],其中,st表示t时刻描述语句S的子句;
步骤2.3、使用长短记忆网络LSTM提取所述描述语句S的文本特征s,再将所述文本特征s嵌入到d维向量中,得到文本特征向量f(s)∈Rd;
步骤3、基于图像特征和文本特征进行语义一致性评价;
步骤3.1、对图像特征向量f(x)和文本特征向量f(s)分别通过乘以d×n维的张量进行扩维,从而得到图像空间距离核Kx和文本空间距离核Ks;
步骤3.2、利用式(1)所定义的核函数得到文本特征s和视觉特征x的距离向量distx(s,x):
式(1)中,||.||表示L1范式;
步骤3.3、将所述距离向量distx(s,x)与一个随机初始化的参数矩阵相乘后再进行逻辑回归操作,得到输出概率D(s,x),用于表示所述描述语句S的语义一致性评分;
步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数,对基于核函数的分类网络进行训练,并在训练中对所述参数矩阵进行更新,当损失函数收敛到阈值时停止训练,从而得到训练好的语义一致性判别器;
步骤4、构建额外人工语句语料库;
步骤4.1、采集风格化语料库并进行分词和词频统计,选取其中词频较高的单词建立单词表;
步骤4.2、根据统计结果,对所述风格化语料库中的语料进行初步筛选,得到筛选后的风格化语料库;
步骤4.3、将筛选后的风格化语料库中的语料作为正样本,并在所述正样本的基础上生成相应数量的病句作为负样本;由所述正样本和负样本构成额外人工语句语料库;
步骤5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;
步骤5.1、基于额外人工语句语料库,训练一个长短记忆网络LSTM,该过程可表示为:
式(2)中,qt表示所述t时刻描述语句S的子句st为人工描述的概率,n为描述语句S的长度,为长短记忆网络LSTM在t时刻的维度为d的隐状态,xt为t时刻长短记忆网络LSTM的输入;以所述长短记忆网络LSTM最后一个步长的输出qn,即描述语句S为人工描述的概率作为语法正确性评分;
步骤5.2、利用式(3)建立长短记忆网络LSTM训练损失函数losssyn:
步骤5.3、对所述损失函数losssyn进行优化求解,使损失代价losssyn达到最小,从而得到最优参数的长短记忆网络LSTM,并作为语法正确性判别器;
步骤6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;
步骤6.1、另外获取包含人工评分的图像数据集,从所述包含人工评分的图像数据集中获取任一图像所述图像对应的参考描述语句以及参考描述语句的人工评分
按照步骤1.2的方式处理所述图像得到图像特征向量按照步骤2.3的方式处理参考描述语句得到文本特征向量从而将和输入所述语义一致性判别器,得到语义一致性评分将输入所述语法正确性判别器,得到语法正确性评分
步骤6.2、将语义一致性评分和语法正确性评分作为输入,以所述人工评分作为输出,以交叉熵作为损失函数,训练含有单个隐藏层的卷积神经网络;
步骤6.3、将步骤3中的输出概率D(s,x)和步骤5中的语法正确性评分qn作为输入,利用所述卷积神经网络,预测二者融合后的综合得分y;
步骤7、对图像描述生成模型的评价;
按照步骤1.2的方式对所有被描述图像进行处理,得到图像特征向量集合;按照步骤2.3的方式对所有描述语句进行处理,得到文本特征向量集合;将图像特征向量集合输入所述语义一致性判别器中得到语义一致性评分集合;将文本特征向量集合输入所述语法正确性判别器中得到语法正确性评分集合;将语义一致性评分集合和语法正确性评分集合输入所述卷积神经网络中得到总的综合得分后再取均值,从而得到所述图像描述生成模型的最终得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010054911.8/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





