[发明专利]网络文本与图像中关联语义基元的弱监督学习方法有效
申请号: | 201711248543.5 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108132968B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 杜友田;黄鑫;崔云博;王航 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06F16/901;G06F40/30 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 文本 图像 关联 语义 监督 学习方法 | ||
1.网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,包括如下步骤:
步骤1,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;
步骤2,以图像中的每个区域作为结点,以结点之间的多种关系作为边,构建图像-文本语义信息传播模型;其中,将整幅图像映射为一个带权无向图G=(V,E,W),即所述图像-文本语义信息传播模型,结点集合V中的每个元素对应于图像中具有典型语义的一个区域,边的集合E对应于区域之间的多种关系,边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性;
步骤3,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合,其中图上的学习算法流程为:定义需要优化的目标函数,其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束;通过投影梯度法对所述目标函数进行迭代优化,实现图像级别的文本标签到子区域上的有效传播,以获得高层语义相匹配的文本-图像语义基元对;
待学习的图像数据集为{I1,…,Ik,…,Im},其中Ik表示第k幅图像,m为图像总数,数据集中相应的图像级语义信息矩阵为其中c为文本词典的大小,即数据集中出现的不重复标签的个数,为图像Ik的标签向量,一幅图像包含若干个文本标签,如果图像Ik被打上标签i那么否则为0;对于每幅原始的输入图像,经过图像分割、滤波去噪后被划分为若干个图像区域块,对每个图像区域进行内容特征提取和表达得到一个d维的特征向量,假设n为数据集中所有区域块的总和,则用表示区域块特征矩阵,X=[x1,…,xi,…xn],该矩阵中的每一列为一个图像子区域的视觉特征向量,用表示相应的区域级语义信息矩阵,该矩阵中的数据是未知的,有待通过算法学习预测;
所述图像-文本语义信息传播模型表示为如下计算区域语义信息矩阵Y的目标函数:
s.t Y≥0
式中:α,λ,η0是平衡参数,其中,α对应损失项,λ对应互斥项,η对应平滑项,而参数的数值大小则决定了三个函数约束项之间的权衡,进而影响算法的预测性能;
损失项定义:语义信息损失小,即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近,对应的函数约束项称为损失项,假设第i幅图经过分割预处理得到k个子区域,则通过最小化如下的损失函数实现这一目标:
式中:是一个常系数矩阵,包含图像空间的邻域信息,若子区域xj属于图像Ii,那么mij=1,否则mij=0;子区域xj待预测的语义特征向量为yj;
互斥项定义:每幅图像种的各个区域对应的语义信息具有互斥性,即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复,对应函数约束项称为互斥项,当且仅当子区域xi和xj属于同一幅图像时,计算其相应的语义特征向量之间的相似度yiTyj并加以惩罚,使得当yi某一维分量数值增大时,yj在该分量上的数值有减小的趋势,在整个数据集上,最小化下式:
式中:i~j表示yi和yj对应的子区域来自于同一幅图像,即它们在特征空间中属于同一邻域:为一常系数矩阵,约束仅对具有邻域关系的点进行相似度计算,若yi和yj有邻域关系,那么cij=1,否则cij=0;
平滑项定义:区域块语义信息在图上光滑,即视觉特征相似的区域其语义信息也应相似,对应函数约束项称为平滑项;最小化下式:
式中:L=D-W为图上的拉普拉斯算子;是该图的度数矩阵,它是一个对角矩阵,对角线上第i个元素是W矩阵第i行所有元素的和,即Dii=∑jWij,如果子区域xi和xj相似度足够高,那么数据点xi和xj之间存在一条边eij,wij为边上的权值
σ是一个和数据集相关的尺度因子;若xi和xj之间不存在边,那么wij=0,从而得到数据图的权矩阵
‖Y‖1表示稀疏项,指给语义信息矩阵Y引入L1范数正则化(L1regularization)来使矩阵稀疏化;
所述目标函数J(Y)是一个带约束的优化问题,通过投影梯度法(Projected GradientMethod)对其进行优化,先从一个基本可行解出发,由约束条件确定出凸约束集边界上梯度的投影,在每次更新搜索方向和步长后,都要检验解的可行性,若不满足约束条件则需要将当前解投影到可行域内,不断迭代直至结果满足精度要求为止,最终目标函数完整的梯度函数为:
s.t Y≥0
式中:符号代表sign(Y);
假设当前的迭代次数为t,此时的搜索步长为st,则当前解Yt的更新规则如下:
其中:P是投影算子,其定义为:
区域级语义信息矩阵Y初始化时,将属于同一幅图像的子区域初始语义信息都设置为:所属图像的语义信息与图像中包含子区域个数的比值,因此,初始时损失函数项的数值为零。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711248543.5/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序