[发明专利]基于比特向量的多媒体信息检索方法和系统有效
申请号: | 201310359716.6 | 申请日: | 2013-08-16 |
公开(公告)号: | CN103440292A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 刘洁 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 张璐;方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 比特 向量 多媒体信息 检索 方法 系统 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种基于比特向量的多媒体信息检索方法和系统。
背景技术
近年来,随着多媒体技术和计算机技术的飞速发展、大规模的多媒体信息越来越多地出现在众多的研究和应用领域。为了使这些庞杂的数据中所包含的信息能够得到有效地访问和利用,传统的基于文本的检索技术已经无法满足用户日益增长的需求,基于内容的检索技术便应运而生。
基于内容的检索方法需要先提取出多媒体的特征数据建立特征数据库,然后将对多媒体信息的检索转换为对特征数据的近邻检索。对于大规模多媒体信息而言,其特征数据也是大规模的。这就需要有与特征数据相对应的合适的索引方法来组织特征数据,加快检索的速度。
然而,多媒体信息的特征数据往往是高维的向量数据(简称高维特征向量),传统的适应于低维数据的索引机制难以适应于基于内容检索的要求,这也就是通常所说的高维数据的索引维数灾难现象。也就是说,基于高维特征向量实现多媒体信息的检索将耗费巨大的检索资源、消耗很大,效率低下。
为解决上述问题,现有技术的方法,如相似敏感哈希(Similarity Sensitive Hash,SSH)、局部敏感哈希(Locality Sensitive Hash,LSH)方法,通过将高维特征向量映射为低维的比特向量,从而利用基于比特向量的相似度量方法和高效索引方法来加快高维特征向量的检索速度,从而提高多媒体信息的检索效率。然而,现有技术的方法易造成相似的高维特征向量(即同类的高维特征向量)被映射为不相似的比特向量,不相似的高维特征向量(即非同类的高维特征向量)被映射为相似的比特向量,导致进行多媒体信息检索时,多媒体信息的高维特征向量映射为比特向量后,具有较大的错误匹配率,使得原有向量的识别能力下降。
因此,有必要提供一种基于比特向量的多媒体信息检索方法,在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量,以使得基于比特向量的多媒体信息的检索效率相比于基于高维特征向量的多媒体信息的检索效率更高,减小检索消耗,并降低基于比特向量的多媒体信息的检索的错误匹配率。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种基于比特向量的多媒体信息检索方法和系统,用以在保证原有向量识别能力的情况下,将多媒体信息的高维特征向量映射为低维的比特向量后,使得基于比特向量的检索效率更高、检索消耗更小。
根据本发明的一个方面,提供了一种基于比特向量的多媒体信息检索方法,包括:
提取当前多媒体信息的特征数据后,得到所述当前多媒体信息的n维的高维特征向量,记为X(x1,x2,...,xn);
将高维特征向量X(x1,x2,...,xn)通过投影矩阵P变换后得到m维的中间向量W(w1,w2,...,wm);
将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较,根据比较结果对所述中间向量进行二值化,得到所述当前多媒体信息的m维的比特向量;其中,m小于n;
根据得到的比特向量,在多媒体特征数据库中查找出与该比特向量相似的比特向量,将查找出的比特向量所对应的多媒体信息作为检索结果输出;
其中,所述投影矩阵P为m×n的矩阵,并满足以下条件:对于资料库中存储的各已分类的多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换后的向量间距离期望值,与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小;
所述阈值向量满足以下条件:对于所述资料库中存储的各多媒体信息的高维特征向量,其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值,与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。
较佳地,在所述提取当前多媒体信息的特征数据之前,还包括:
通过所述资料库中存储的多媒体信息训练出所述投影矩阵P:
对于所述资料库中存储的多媒体信息,将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素,存储到同类样本集合中;并
将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素,存储到非同类样本集合中;
构建出使得如下公式1中最小的投影矩阵P:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310359716.6/2.html,转载请声明来源钻瓜专利网。