[发明专利]一种基于统一稀疏表示的跨媒体检索方法在审
申请号: | 201410356736.2 | 申请日: | 2014-07-24 |
公开(公告)号: | CN104166684A | 公开(公告)日: | 2014-11-26 |
发明(设计)人: | 翟晓华;彭宇新;肖建国 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余功勋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统一 稀疏 表示 媒体 检索 方法 | ||
技术领域
本发明涉及多媒体检索技术领域,具体涉及一种基于统一稀疏表示的跨媒体检索方法。
背景技术
随着大数据时代的来临,互联网上的多媒体数据迅速增长,包括文本、图像、视频、音频等各种媒体数据。然而,现有的搜索引擎如谷歌、百度等仍然依赖于基于关键词的检索,这种检索方式一方面忽略了图像、视频、音频等多媒体数据本身的信息,另一方面当多媒体数据周边没有文本时,便无法进行搜索。尽管有一些研究工作关注基于内容的单媒体检索,如以图搜图等,然而无法支持基于内容的跨媒体检索,例如用一张图像样例,检索出所有相关的媒体数据,不仅包括相关的图像,还包括文本、视频、音频、3D等。这种检索方式比传统的基于关键词的检索和基于内容的单一媒体检索更加符合用户需求,一方面检索结果更加全面,用户可以一次获得所有相关的各种媒体结果,另一方面用户可以提交任意媒体作为查询,而不必限制查询媒体的类型,因此检索方式更加灵活。
现有的跨媒体检索方法一般可以分为两类。第一类是基于子空间的映射技术,这一类方法以典型相关分析(Canonical Correlation Analysis,简称CCA)为代表,CCA是一种类似于主成分分析(Principal Component Analysis,简称PCA)的降维技术,不同的是CCA可以同时分析两组变量之间的相关性,学习出映射子空间使得在子空间中两组变量的相关性最大。除了CCA以外,Li等人在文献“Multimedia content processing through cross-modal association”中提出了一种新的跨模态因子分析方法(Cross-modal Factor Analysis,简称CFA)用于学习两组异构数据的映射空间,不同于CCA最大化两组数据之间的相关性,CFA的学习目标是在映射后的空间中,最小化两组数据之间的弗罗贝尼乌斯范数(Frobenius Norm),并且取得了比CCA更好的效果。
然而,现有方法往往只考虑了数据之间的一一对应关系,例如通过CCA或者CFA学习出映射子空间,使得原始的一一对应的跨媒体数据之间的相关性最大。它们不能挖掘更加丰富的语义信息,例如跨媒体数据的语义类别信息。因此第二类基于语义映射的方法被提出,Rasiwasia等人在其文献“A New Approach to Cross-Modal Multimedia Retrieval”中提出了两个假设:(1)对图像和文本两种媒体之间的关联关系进行建模有利于跨媒体检索;(2)高层抽象表示能够进一步提高跨媒体检索的效果。在Rasiwasia等人的工作中,跨媒体数据之间的关联信息通过CCA进行学习,高层抽象通过逻辑回归将文本或图像表示为具有相同维度的语义概念向量,其中每一维表示该多媒体数据属于对应类别的概率。然而,该方法在学习的过程中只能考虑两种媒体类型之间的关系,并且没有考虑利用稀疏性来降低跨媒体数据中的噪声,并且该方法的两个学习步骤是独立进行的,不能够同时考虑关联信息和语义类别信息,因此误差积累传播至后续的特征学习阶段,从而使得最终的跨媒体检索的准确率下降。
发明内容
针对现有技术的不足,本发明提出了一种基于统一稀疏表示的跨媒体检索方法,能够充分考虑多种媒体类型之间的关联关系,同时学习多种媒体类型的稀疏特征表示,从而有效地过滤特征表示中的噪声,并使得不同媒体数据能够互相校正,进一步提高统一特征表示的有效性,提高跨媒体检索的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于统一稀疏表示的跨媒体检索方法,用于统一表示多种不同媒体类型实现跨媒体检索,包括以下步骤:
(1)建立包含多种媒体类型的跨媒体数据库,并将所述数据库分为训练集和测试集,提取每种媒体类型数据的特征向量;
(2)通过训练集的多媒体数据,为每种媒体类型数据学习跨媒体统一稀疏表示的特征映射矩阵;
(3)根据特征映射矩阵,将测试集中的每种媒体类型数据映射到统一的空间中,得到跨媒体数据的统一稀疏表示;
(4)基于统一稀疏表示,计算任意媒体数据之间的跨媒体相似性;
(5)将测试集中的每个数据作为查询样例,整个测试集作为查询目标集进行查询;计算查询样例和查询目标集中媒体数据之间的相似性,进而根据相似性得到跨媒体统一检索结果,检索结果包含所有相关的媒体类型数据。
进一步,上述一种基于统一稀疏表示的跨媒体检索方法,所述步骤(1)多种媒体类型为五种媒体类型,包括文本、图像、视频、音频和3D。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410356736.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生物阻抗测量用电极转接装置
- 下一篇:固定式窗擦