[发明专利]网络文本与图像中关联语义基元的弱监督学习方法有效

申请号：	201711248543.5	申请日：	2017-12-01
公开（公告）号：	CN108132968B	公开（公告）日：	2020-08-04
发明（设计）人：	杜友田;黄鑫;崔云博;王航	申请（专利权）人：	西安交通大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/33;G06F16/901;G06F40/30
代理公司：	西安智大知识产权代理事务所 61215	代理人：	段俊涛
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络文本图像关联语义监督学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，包括如下步骤：

步骤1，针对异构模态数据内容进行特征提取与表达，从而分别获得文本、图像两者单独模态下语义基元的特征向量空间；

步骤2，以图像中的每个区域作为结点，以结点之间的多种关系作为边，构建图像-文本语义信息传播模型；其中，将整幅图像映射为一个带权无向图G＝(V,E,W)，即所述图像-文本语义信息传播模型，结点集合V中的每个元素对应于图像中具有典型语义的一个区域，边的集合E对应于区域之间的多种关系，边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性；

步骤3，构建图上的学习算法，将图像级别对应的文本语义信息有效地传播到这些图像区域上去，形成大量表征客观世界的语义基本单元集合，其中图上的学习算法流程为：定义需要优化的目标函数，其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束；通过投影梯度法对所述目标函数进行迭代优化，实现图像级别的文本标签到子区域上的有效传播，以获得高层语义相匹配的文本-图像语义基元对；

待学习的图像数据集为{I₁,…,I_k,…,I_m}，其中I_k表示第k幅图像，m为图像总数，数据集中相应的图像级语义信息矩阵为其中c为文本词典的大小，即数据集中出现的不重复标签的个数，为图像I_k的标签向量，一幅图像包含若干个文本标签，如果图像I_k被打上标签i那么否则为0；对于每幅原始的输入图像，经过图像分割、滤波去噪后被划分为若干个图像区域块，对每个图像区域进行内容特征提取和表达得到一个d维的特征向量，假设n为数据集中所有区域块的总和，则用表示区域块特征矩阵，X＝[x₁,…,x_i,…x_n]，该矩阵中的每一列为一个图像子区域的视觉特征向量，用表示相应的区域级语义信息矩阵，该矩阵中的数据是未知的，有待通过算法学习预测；

所述图像-文本语义信息传播模型表示为如下计算区域语义信息矩阵Y的目标函数：

s.t Y≥0

式中：α,λ,η0是平衡参数，其中，α对应损失项，λ对应互斥项，η对应平滑项，而参数的数值大小则决定了三个函数约束项之间的权衡，进而影响算法的预测性能；

损失项定义：语义信息损失小，即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近，对应的函数约束项称为损失项，假设第i幅图经过分割预处理得到k个子区域，则通过最小化如下的损失函数实现这一目标：

式中：是一个常系数矩阵，包含图像空间的邻域信息，若子区域x_j属于图像I_i，那么m_ij＝1，否则m_ij＝0；子区域x_j待预测的语义特征向量为y_j；

互斥项定义：每幅图像种的各个区域对应的语义信息具有互斥性，即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复，对应函数约束项称为互斥项，当且仅当子区域x_i和x_j属于同一幅图像时，计算其相应的语义特征向量之间的相似度y_i^Ty_j并加以惩罚，使得当y_i某一维分量数值增大时，y_j在该分量上的数值有减小的趋势，在整个数据集上，最小化下式：

式中：i～j表示y_i和y_j对应的子区域来自于同一幅图像，即它们在特征空间中属于同一邻域:为一常系数矩阵，约束仅对具有邻域关系的点进行相似度计算，若y_i和y_j有邻域关系，那么c_ij＝1，否则c_ij＝0；

平滑项定义：区域块语义信息在图上光滑，即视觉特征相似的区域其语义信息也应相似，对应函数约束项称为平滑项；最小化下式：

式中：L＝D-W为图上的拉普拉斯算子；是该图的度数矩阵，它是一个对角矩阵，对角线上第i个元素是W矩阵第i行所有元素的和，即D_ii＝∑_jW_ij，如果子区域x_i和x_j相似度足够高，那么数据点x_i和x_j之间存在一条边e_ij，w_ij为边上的权值

σ是一个和数据集相关的尺度因子；若x_i和x_j之间不存在边，那么w_ij＝0，从而得到数据图的权矩阵

‖Y‖₁表示稀疏项，指给语义信息矩阵Y引入L₁范数正则化(L₁regularization)来使矩阵稀疏化；

所述目标函数J(Y)是一个带约束的优化问题，通过投影梯度法(Projected GradientMethod)对其进行优化，先从一个基本可行解出发，由约束条件确定出凸约束集边界上梯度的投影，在每次更新搜索方向和步长后，都要检验解的可行性，若不满足约束条件则需要将当前解投影到可行域内，不断迭代直至结果满足精度要求为止，最终目标函数完整的梯度函数为：

s.t Y≥0

式中：符号代表sign(Y)；

假设当前的迭代次数为t，此时的搜索步长为s_t，则当前解Y_t的更新规则如下：

其中：P是投影算子，其定义为：

区域级语义信息矩阵Y初始化时，将属于同一幅图像的子区域初始语义信息都设置为：所属图像的语义信息与图像中包含子区域个数的比值，因此，初始时损失函数项的数值为零。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711248543.5/1.html，转载请声明来源钻瓜专利网。