[发明专利]一种基于混合迁移网络的跨媒体检索方法有效
申请号: | 201710378474.3 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107220337B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 黄鑫;彭宇新 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F40/30;G06N5/02 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 迁移 网络 媒体 检索 方法 | ||
1.一种基于混合迁移网络的跨媒体检索方法,包括以下步骤:
(1)建立包含一种媒体类型的单媒体数据库,同时建立包含多种媒体类型的跨媒体数据库,并将所述跨媒体数据库中的数据分为训练集和测试集;
(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络,用于学习不同媒体数据的统一表征;所述混合迁移网络包括媒体共享迁移子网络和网络层共享关联子网络;其中媒体共享迁移子网络以源域、目标域中的共有媒体为桥梁,联合进行单媒体迁移和跨媒体迁移,使得单媒体源域中的知识能够被同时迁移到目标域中的所有媒体;网络层共享关联子网络则利用网络层共享的方式,充分考虑蕴含于目标域中的跨媒体关联关系,使得属于相同语义类别的跨媒体数据生成相近的统一表征;
(3)利用训练好的混合迁移网络,得到跨媒体数据库的测试集中数据的统一表征,进而计算跨媒体数据的相似性;
(4)使用跨媒体测试集中的一种媒体类型作为查询集,另一种媒体类型作为检索库,利用查询集中的每个数据作为样例,与检索库中的每个数据计算相似性,根据相似性得到检索结果。
2.如权利要求1所述的方法,其特征在于,步骤(1)中的单媒体数据库包括一种媒体类型;跨媒体数据库包括两种媒体类型,其中一种为单媒体数据库的媒体类型。
3.如权利要求1所述的方法,其特征在于,步骤(2)中的媒体共享迁移子网络共有三路输入:源域图像、目标域图像、目标域文本,三路输入分别经过两层全连接网络处理;在训练过程中联合考虑单媒体迁移和跨媒体迁移两个方面来实现从单媒体源域到跨媒体目标域的知识迁移;所述单媒体迁移发生在源域图像和目标域图像两路网络之间,所述跨媒体迁移发生在目标域图像与目标域文本之间。
4.如权利要求3所述的方法,其特征在于,所述单媒体迁移采用特征适应方式进行,定义两个域中图像数据a与b的最大平均差异在再生希尔伯特空间Hk中的平方形式为:
其中,is和it分别表示源域、目标域的输入图像,表示深度网络中网络层的输出,Ea和Eb表示源域、目标域上的期望;
据此,构建单媒体迁移损失项如下:
其中,l6与l7为源域图像、目标域图像两路网络中对应的全连接层,Is和It分别表示源域、目标域的图像集合;此外,源域图像网络也需要在Is上进行微调以挖掘源域和目标域的语义关联信息,为此建立源域监督损失项:
其中,表示源域中的带标注图像,为的标注标签,θs表示目标域分支的网络参数,m表示源域中有标注的图像数量,为softmax损失项,定义如下:
其中θ为网络参数,y为数据x的标签,c为x所有可能的标签数量;1{y=j}为指示函数,若y=j则返回1,否则为0。
5.如权利要求3所述的方法,其特征在于,所述跨媒体迁移中每个图像-文本对具有相关的高层语义,因此使它们的网络层具有相似的输出以实现跨媒体知识迁移;令每个图像-文本对为定义跨媒体差异如下:
其中,和分别表示一个图像-文本对中带标注的图像和文本数据,表示深度网络中网络层的输出,据此建立跨媒体迁移损失项如下:
其中,l6与l7为目标域图像、文本两路网络中对应的全连接层,nl表示目标域带标注的图像-文本对数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710378474.3/1.html,转载请声明来源钻瓜专利网。