[发明专利]一种基于主题模型的跨模态检索方法在审

专利信息
申请号: 201410532057.6 申请日: 2014-10-10
公开(公告)号: CN104317837A 公开(公告)日: 2015-01-28
发明(设计)人: 庄越挺;吴飞;李玺;王彦斐;宋骏 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主题 模型 跨模态 检索 方法
【权利要求书】:

1.一种基于主题模型的跨模态检索方法,其特征在于包括如下步骤:

1)对数据库中各种类型模态数据提取特征和记录标签;

2)构建基于主题的跨模态检索图模型,建立不同模态数据所包含主题之间的相关关系,同时能利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,最终进行跨模态之间相似性度量,实现跨模态检索;

3)采用坍缩吉布斯采样方法求解基于主题的跨模态检索图模型;

4)用户提交一种类型模态的数据,并提取特征后,利用跨模态检索模型返回与之相关的另外一种类型模态数据;

5)利用跨模态数据的真实对应信息和标签信息,对跨模态检索模型同时从对应性和区别性两方面来进行评价。

2.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤1)包括:

1)对数据库内所有的文本模态数据进行词性标注,去除非名词单词,保留文本中名词,将数据库中出现过的所有单词构成字典,统计字典中单词出现在每个文本中次数,用字典中单词出现的次数作为每个文本数据的表达;

2)对数据库内所有其他类型模态的数据提取底层特征作为单词,并进行聚类,用聚类中心点代表底层特征,形成该模态数据的字典;统计字典中每个单词出现在该模态数据中的次数,用字典中单词出现的次数作为每个模态数据的表达;

3)对数据库中不同类型模态数据,统计它们的标签信息,即记录每一个模态数据所属于的类别。

3.根据权利要求1所述的一种基于主题模型的跨模态检索方法,其特征在于,所述的步骤2)包括:

1)对于具有相关关系的不同模态数据,它们之间的相似性强弱通过其主题比例分布度量如下:

假设πi和πj是具有相关关系的两种不同模态数据的主题比例分布,这两个不同模态数据之间的相似性通过定义在其主题空间的势函数来计算,势函数的定义如公式(1)所示,

Ψ(πij)=exp(-λf(πij))   (1)

其中λ是一个非负缩放比例参数,f(πij)是对称KL-divergence距离,定义为f(πi,πj)=12(DKL(πi||πj)+DKL(πj||πi))=12Σk=1K(πiklogπikπjk+πjklogπjkπik),]]>其中,K是πi和πj的维度,即主题数目;

2)利用跨模态数据所具有的标签信息学习不同数据主题间的差异信息,由于相互关联的不同模态数据组成的跨模态文档具有一个共同的标签,因此通过跨模态文档经验主题频率向量采用softmax函数回归推理得到标签信息,计算如公式(2)所示,跨模态文档的经验主题频率由其所包含各种类型模态数据的经验主题频率拼接而成:

cd=softmax(zd,η)---(2)]]>

其中,为跨模态文档d的经验主题频率向量,M为跨模态文档d所包含的模态个数,为模态m所对应数据的经验主题频率,softmax函数的表达式为p(c|zd,η)=exp(ηcTzd)Σl=1Cexp(ηlTzd).]]>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410532057.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top