[发明专利]基于多模态的图像标注装置以及方法有效

申请号：	201310251807.8	申请日：	2013-06-24
公开（公告）号：	CN104239359B	公开（公告）日：	2017-09-01
发明（设计）人：	刘曦;刘汝杰	申请（专利权）人：	富士通株式会社
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三友知识产权代理有限公司11127	代理人：	陶海萍,田勇
地址：	日本神奈***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多模态图像标注装置以及方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多模态（Multi-modal）后融合（Late Fusion）的图像标注（Image Tagging）装置以及方法。

背景技术

随着Web2.0技术的快速发展，图像的数量正呈爆炸式增长，快速浏览和搜索所需图像因此变得费时费力。为了能有效减速浏览图像，图像标注技术变得越来越重要且必不可少。

传统的图像标注方法通常只考虑一个模态（Modal），然而单个模态无法为表征图像提供充分的信息，并且越来越多的研究也表明同时考虑多个模态是有益的，因此融合图像多个模态的图像标注技术就显得越来越重要。

基于搜索的图像标注方法是最近提出的一种融合多模态的图像标注方法。它先归一化每种模态，然后对所有归一化的模态直接拼接以得到单一模态，再利用拼接的单一模态找出近邻图像并统计所有近邻图像的标签以得出最终标注结果。

但是，发明人发现该方法只是简单的对所有归一化的模态直接进行拼接，但是由于各个模态的尺度问题，很难通过归一化实现各个模态在尺度上的统一，因此它无法有效地对多个模态进行融合。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

下面列出了对于理解本发明和常规技术有益的文献，通过引用将它们并入本文中，如同在本文中完全阐明了一样。

[参考文献1]：P.Gehler and S.Nowozin.On feature combination for multiclass object classification,In Proceedings of International Conference on Computer Vision,2009.

[参考文献2]：X.Li,C.Snoek,and M.Worring.Learning social tag relevance by neighbor voting,IEEE Transactions on Multimedia,1310-1322,2009.

发明内容

本发明实施例提供一种基于多模态的图像标注装置以及方法，目的在于对图像的多个模态进行有效地融合，获得更鲁棒（Robust）且更精确的图像标注结果。

根据本发明实施例的一个方面，提供一种基于多模态的图像标注装置，所述图像标注装置包括：

分数生成单元，利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；

后融合单元，将获得的多组分数进行融合来获得关于所有标签的最终分数；

标签选择单元，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。

根据本发明实施例的另一个方面，提供一种基于多模态的图像标注方法，所述图像标注方法包括：

利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；

将获得的多组分数进行融合来获得关于所有标签的最终分数；

根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。

本发明的有益效果在于：在利用多个模态的同时采用后融合的方式，可以避免各个模态之间的尺度问题从而实现对多个模态进行有效地融合。通过对图像的多个模态进行有效地融合，相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。