[发明专利]基于隐空间学习和双向排序学习的跨媒体排序方法有效
| 申请号: | 201310410565.2 | 申请日: | 2013-09-10 |
| 公开(公告)号: | CN103559191A | 公开(公告)日: | 2014-02-05 |
| 发明(设计)人: | 吴飞;汤斯亮;卢鑫炎;邵健;庄越挺 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 空间 学习 双向 排序 媒体 方法 | ||
技术领域
本发明设计跨媒体检索,尤其涉及一种基于隐空间学习和双向排序学习的跨媒体排序方法。
背景技术
图像是当前非常常见的文件类型,它具有一定的语义。一般来说,图像由一个个的像素点组成,计算机并不能直接理解图像所蕴含的语义信息。随着多媒体技术和网络技术的发展,越来越多的图像涌现出来。检索技术可以帮助用户在海量的数据中快速查找到自己感兴趣的内容,成为计算机应用技术中越来越重要的领域。传统的检索技术,无论是基于关键词的检索还是基于内容的检索,都不能很好地满足用户希望用文本检索图像或者图像检索文本的需求。基于关键词的检索系统中,需要事先对图像进行标注。但是由于目前存在的图像数量巨大,因此标注过程工程量浩繁,而由于标注内容不可避免地会受到标注者主观因素的影响,针对同一个图像,不同的标注者可能会标注不同的关键词,因此关键词往往不能客观反映图像所蕴含的全部语义。基于内容的检索系统则不需要对图像进行标注,用户提交一个检索样例对图像进行检索,但是传统的基于内容的检索技术存在两个弱点:一是用户只能检索与查询例子相同模态的媒体对象,只能通过图像检索图像;二是图像的底层特征和高层语义存在语义鸿沟因此检索性能受到限制。为了跨越不同模态数据间的语义鸿沟,更好地理解多媒体语义,同时为了满足用户跨媒体查询的需求,寻求一种基于语义的跨媒体排序方法颇有意义。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于隐空间学习和双向排序学习的跨媒体排序方法。
基于隐空间学习和双向排序学习的跨媒体排序方法,包括如下步骤:
1)将文本检索图像的排序样本和图像检索文本的排序样本统一构建为训练样本;
2)对构建得到的训练样本进行基于隐空间学习和双向排序学习的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;
3)使用学习得到的跨媒体排序模型进行跨媒体排序:用户提交查询例子后,首先找到该查询例子在多媒体语义空间的坐标,然后根据跨媒体对象在多媒体语义空间内的坐标,计算查询例子与其他所有跨媒体对象在多媒体语义空间的相似度,并根据该相似度,对所有跨媒体对象进行排序。
所述的步骤1)包括:
1)对训练样本里的所有文本文档利用词袋模型进行特征表达,并利用TF-IDF方法对每个单词进行加权,文本最终被表示为t∈Rm,其中m为文本空间的维数;
2)对训练样本里的所有图像文档提取SIFT局部特征点,并对这些局部特征点进行K-Means聚类,用聚类中心构建码本以及视觉单词。然后对每张图片,通过欧氏距离最近邻计算该图片的每个局部特征点应该属于码本里的哪一个视觉单词,最后和对文本文档的处理一样,利用词袋模型和TF-IDF方法进行特征表达,图像最终被表示为p∈Rn,其中n为图像空间的维数;
3)对文本检索图像方向而言,对每一个查询文本,构建一个图像的排序列表,其中列表中的图像被标记为查询语义相关或者语义不相关,因此每个文本检索图像的训练样本被表示为三元组其中N为训练样本个数,ti为检索文本,pi为图像集合,是图像集合上的排序,y表示整个排序空间;
4)对图像检索文本方向而言,对每一个查询图像,构建一个文本文档的排序列表,其中列表中的文本文档被标记为查询语义相关或者语义不相关,每个图像检索文本的训练样本被表示为三元组M为训练样本个数,pi为检索图像,tj是文本文档集合,是文本文档集合上的排序;
5)将两个方向上的查询列表合并起来得到统一的训练样本。
所述的步骤2)包括:
1)使用结构支持向量机构建一个优化问题,其目标函数是使得映射函数在结构风险和经验风险之间取得折中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310410565.2/2.html,转载请声明来源钻瓜专利网。





