[发明专利]基于同构子空间映射和优化的跨媒体检索方法有效

专利信息
申请号: 201410260190.0 申请日: 2014-06-12
公开(公告)号: CN103995903B 公开(公告)日: 2017-04-12
发明(设计)人: 张鸿;聂加梅;张延鹏 申请(专利权)人: 武汉科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 杭州宇信知识产权代理事务所(普通合伙)33231 代理人: 张宇娟
地址: 430081 *** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 同构 空间 映射 优化 媒体 检索 方法
【说明书】:

技术领域

发明涉及多媒体内容分析和语义理解技术领域,特别是涉及一种基于同构子空间映射和优化的跨媒体检索方法。

背景技术

随着多媒体技术和网络技术的高速发展,文字已不再是人们接触到的主要多媒体内容。图像、音频和视频等不同类型的多媒体数据已经遍布各种网络终端。这些丰富的多媒体数据表达了大量的语义信息,并且彼此之间存在错综复杂的关联,比如:底层内容特征上的统计关系、网页之间的链接关系等。如何有效的管理大量不同类型的多媒体数据,并且提供灵活、高效的跨媒体检索,是多媒体内容分析和语义理解领域所面临的新挑战。

多媒体数据在数据类型和数据量上的急速膨胀,使得传统的多媒体检索技术难以对灵活、高效的跨媒体检索方式提供支持。在跨媒体检索模式下,用户可以提交不同类型的多媒体数据作为查询样本,系统会从不同类型的多媒体数据库中,找到与查询样本在语义上相关的数据,作为跨媒体检索结果返回给用户。然而,传统的多媒体检索技术大多是针对单一类型的数据,如:图像检索,这种传统的检索方式难以实现对图像、音频等不同类型多媒体数据的综合检索和灵活跨越。跨媒体检索技术应运而生,并迅速成为多媒体研究领域的前沿热点。

实际上,人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据,以形成对多媒体语义的整体理解。作为一种新兴的研究方向,跨媒体检索源于基于内容的多媒体检索研究,后者在九十年代初期被提出,并一直是计算机视觉领域一个非常活跃的研究方向,综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识,较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而,面临当前环境下丰富的、类型各异的多媒体数据,传统基于内容的多媒体检索技术难以解决对不同类型多媒体数据的子空间学习、跨媒体相关性度量等新的问题。跨媒体检索技术主要是为了解决上述问题。

为了更好地理解跨媒体语义,提高跨媒体检索的效率,需要重点关注对不同类型的、异构的多媒体特征的同构子空间学习。最近几年,越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索,取得了较好的研究成果,其中较有代表性的可归纳为以下几类:深度学习、统计关系模型、非线性流形学习、稀疏特征分析等。然而,目前的这些研究工作大多是借助文本标注、网页链接等直接语义关联,以建立图像、音频、视频等不同类型多媒体样本之间的关联模型,很少从底层内容特征层面上,分析多媒体数据在同构子空间中的潜在语义关系。因此,现有研究大都或多或少地存在一些缺陷和不足,尤其体现在如何从底层的视觉特征和听觉特征来进行同构子空间分析和映射,通过挖掘不同类型多媒体数据在同构子空间中的几何拓扑和距离关系,对同构子空间进行优化这些问题的研究上。

发明内容

本发明旨在克服现有的技术缺陷,目的在于提供一种基于同构子空间映射和优化的跨媒体检索方法,该方法能够构建容纳图像样本和音频样本的同构子空间,并根据图像样本和音频样本之间的距离关系,优化同构子空间,进一步提高跨媒体检索效率。

为实现上述目的,本发明采用如下技术方案:

一种基于同构子空间映射和优化的跨媒体检索方法,包括以下步骤:

第一步、基于视听觉特征分析的同构子空间映射

从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到视觉特征矩阵A和听觉特征矩阵B;通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;在高维核空间中进行相关性保持映射,得到同构子空间Z;

第二步、构建跨媒体加权近邻图

分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),进行定量分析,得到相应的权重矩阵W和拉普拉斯矩阵L;

第三步、基于目标函数最小化的同构子空间优化

对目标函数进行求解,得出优化后的同构子空间Y的值;

第四步、跨媒体距离度量和检索

当用户提交查询样本进行跨媒体检索时,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回。

进一步的,第一步所述的基于视听觉特征分析的同构子空间映射包括:

(1)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,得到视觉特征矩阵A;

(2)从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征,采用模糊聚类的方法对听觉特征进行索引,将每个音频样本的听觉特征都统一到相同的维数,得到听觉特征矩阵B;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410260190.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top