[发明专利]从检索图像中筛选有用图像的方法有效

专利信息
申请号: 201410032416.1 申请日: 2014-01-23
公开(公告)号: CN103778227B 公开(公告)日: 2016-11-02
发明(设计)人: 邓成;王东旭;杨延华;王嘉龙;李洁;高新波 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 陕西电子工业专利中心 61205 代理人: 王品华;朱红星
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 检索 图像 筛选 有用 方法
【说明书】:

技术领域

发明属于信息检索技术领域,具体的说是一种从检索图像中筛选有用图像的方法,该方法可用于改善互联网上图像检索结果的准确率。

背景技术

随着互联网技术的快速发展,Flicker,人人网,Facebook,新浪微博等基于web2.0环境的社交媒体日益兴起,这就使得图像、视频等海量多媒体数据的共享成为可能。现在互联网上每时每刻,都有大量的图像、视频上传。与此同时,人们越来越习惯在互联网上进行图像、文字等各种信息的搜索查询。在此背景下,如何实现符合用户搜索意图的高效图像搜索就变得非常重要。当前互联网背景下,诸如Google、Baidu、Bing等商用搜索引擎都在致力于开发更加智能的能符合用户搜索意图的图像搜索系统。传统的图像搜索主要以用户输入的文本关键字作为查询,搜索引擎根据离线建好的语料库对用户输入的关键字进行扩展,构建用户查询的文本特征,搜索时,主要根据图像所在网页中的标签文字,例如图像文件名,图像标注标签,网页URL等,构建图像的文本特征,根据用户的查询文本特征和图像的文本特征计算相似度,以此返回给用户图像搜索的结果。由于当前互联网基于文本的搜索技术已经相当成熟,基于文本特征的图像搜索可以很方便实现,然而,问题在于图像周围的文字标签很可能和图像的视觉内容并不相一致。另一方面,随着当前互联网不断地往社交性、商业性上发展,近些年,直接以图像作为查询的以图搜图系统得到很多用户的青睐。当前的直接以图像作为查询的搜索技术主要利用图像的底层视觉特征来进行相似性的计算,然而,由于图像的低层视觉特征和高层的语义概念之间存在语义鸿沟,低层视觉特征相似的图像并不一定意味着图像之间拥有着相似的语义内容。这样,无论以文本作为查询还是直接以图像作为查询,搜索引擎对于图像的直接搜索结果常常很难令人满意。

在此背景下,结合图像内容对初始搜索结果重新排序就成为了一项非常重要的工作。随着图像搜索技术的不断发展,目前已经提出了很多图像重排序方法。经典的方法包括聚类,分类等技术,将图像的排序问题转变成经典的半监督学习问题,以实现噪音图像的过滤。基于机器学习的方法根据初始的搜索结果去自主的学习用户的搜索意图,以此来改善最终图像搜索的结果。结合当前图像重排序技术,当前的图像搜索结果性能已经得到相当大程度的提高。然而,传统的经典图像重排序技术往往没有考虑图像的语义内容信息。图像语义鸿沟的问题还是没有很好的得到解决。目前的研究趋势正是如何结合图像的语义内容信息,针对图像的语义鸿沟问题研究算法以实现更高性能的图像重排序。

尽管现今基于多特征融合的图像重排序方法可以在一定程度上改善图像搜索排序结果的准确率,但是本质的问题依然存在。一方面,基于伪相关反馈策略选择的标注样例不一定总是正确的。另一方面,在图像的视觉一致性上,挖掘每一个标注样本的每一个视觉元素并不能很好地反映用户的查询目的。这些问题将详述如下:

基于伪相关反馈策略,一个基本的假设是初始排在最前面的样本往往是和查询相关的,因此可以被作为学习排序函数的正样例。然而,实际中一些与查询无关的图像也会在初始排序结果中排在靠前的位置,从而影响挑选的正样本的纯度。另一方面,不止要求用户标注正样本不仅效率低下,而且在实际系统中令人无法接受。即使排在初始结果前面的样本可以被准确的标记,实际中也无法保证可以获得足够多数量的正样本。因此,有选择的对待噪音样本方法就很有必要。比如文献W.Liu,Y.Jiang,J.Luo,and S.-F.Chang,“Noise resistant graph ranking for improved web image search,”in Proc.IEEE Int.Conf.Comput.Vis.Pattern Recognit.,2011,pp.849–856.利用一些排在初始结果前面的图像做为伪标记样本,进一步通过正则化图拉普拉斯算子选择一部分特征基来过滤噪声样本。

视觉一致性方面,在传统定义下,彼此相似的图像应该被排列在最终排序结果前面的位置。这一策略的缺陷在于如果两幅图像缺乏足够的相似性,判断两幅图像是否和查询相关就会变的相当困难。另一方面,纯粹图像级别的监督算法并不能很好的捕获标注样本的语义信息,很多情况下,用户很难通过文本关键字描述其查询意图的语义内容。

发明内容

本发明的目的在于提出一种从检索图像中筛选有用图像的方法,以解决现有排序过程中噪音样本影响排序准确度的问题,以及因缺乏视觉上的一致性而造成无法关联两幅图像的问题,提高初排序中正样本的纯净度,增强图像之间的查询相关性,更准确地获取符合用户意图的图像。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410032416.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top