[发明专利]一种基于深度神经网络的跨媒体排序方法有效
申请号: | 201410531101.1 | 申请日: | 2014-10-10 |
公开(公告)号: | CN104317834B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 吴飞;鲁伟明;卢鑫炎;王东辉;汤斯亮;邵健;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度神经网络的跨媒体排序方法。包括如下步骤1)将文本检索图像的排序样本或图像检索文本的排序样本构建为训练样本;2)对构建得到的训练样本进行基于深度神经网络的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;3)使用学习得到的跨媒体排序模型进行跨媒体检索。本发明由于使用了跨媒体排序数据驱动的深度神经网络,因此得到的检索模型的语义理解能力更强,在图像检索文本或文本检索图像中所取得性能较传统的浅层模型方法更好。 | ||
搜索关键词: | 一种 基于 深度 神经网络 媒体 排序 方法 | ||
【主权项】:
一种基于深度神经网络的跨媒体排序方法,其特征在于包括如下步骤:1)将文本检索图像的排序样本或者图像检索文本的排序样本构建为训练样本;具体包括:1.1)对训练样本里的所有文本文档利用词袋模型进行特征表达,文本最终被表示为t∈Rm,其中m为文本空间的维数;1.2)将训练样本里的所有图像文档缩放,使具有相同的宽度ω和高度h,使用每个像素点的RGB通道值来表示每个像素,将所有像素拉成一个向量,则图像最终被表示为p∈R3×ω×h;1.3)对文本检索图像方向而言,对每一个查询文本文档,构建一个候选图像文档的排序列表,其中列表中的图像被标记为查询语义相关或者语义不相关,因此每个文本检索图像的训练样本被表示为三元组其中N为训练样本个数,ti为检索文本,pi为图像集合,是图像集合上的排序,表示整个排序空间;1.4)对图像检索文本方向而言,对每一个查询图像文档,构建一个候选文本文档的排序列表,其中列表中的文本文档被标记为查询语义相关或者语义不相关,每个图像检索文本的训练样本被表示为三元组M为训练样本个数,pj为检索图像,tj是文本文档集合,是文本文档集合上的排序;2)对构建得到的训练样本进行基于深度神经网络的跨媒体排序学习,得到多媒体语义空间以及跨媒体排序模型;具体包括:2.1)使用深度结构语义网络对文本进行建模,对每个文本,深度结构语义网络顶层输出一个k维的向量;2.2)使用深度卷积网络对图像进行建模,对每个图像,深度卷积网络顶层输出一个k维的向量;2.3)对候选文档所对应的深度神经网络,在原顶层之后添加仅有一个节点的排序分数层作为新的顶层,其中连接排序分数层和原顶层的权重参数被设置为查询文档对应深度神经网络所输出的k维向量;2.4)构建一个目标函数,使得神经网络输出的候选文档集合的排序和训练集合中的排序一致,对第i个训练样本定义的损失函数为:其中,n(i)是第i个训练样本中候选文档的个数,和分别是训练集中的排序分数列表、深度神经网络输出的排序分数列表,以及2.5)输入排序样本作为优化问题的训练样本,根据损失函数对深度神经网络进行反向回馈以得到深度神经网络的各层的参数,根据学习得到的深度神经网络的参数,提取图像文档和文本文档在语义空间中的k维表达;3)使用学习得到的跨媒体排序模型进行跨媒体检索:用户提交查询文档后,将查询文档和候选文档同时输入到所提出的深度神经网络中,根据深度神经网络输出的排序分数从大到小对所有跨媒体对象进行排序,得到跨媒体检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410531101.1/,转载请声明来源钻瓜专利网。