[发明专利]基于稀疏哈希的大数据检索方法有效
申请号: | 201310457033.4 | 申请日: | 2013-09-29 |
公开(公告)号: | CN103605653B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 朱晓峰;张师超;刘星毅 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司45112 | 代理人: | 巢雄辉 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 稀疏 数据 检索 方法 | ||
技术领域
本发明涉及计算机科学与技术领域和信息技术领域,具体涉及大数据,特别是一种使用稀疏哈希进行图片、文本、音乐等大数据检索方法。
背景技术
大数据是指无法在当前条件下使用常规的工具对数据内容进行检索和管理的数据集。数据量大、数据类型繁多、价值密度低和处理速度快是大数据四个非常显著的特点。目前大数据知识发现的研究主要集中在划分、聚类、检索、增量(批量、在线或平行)学习这4个方面。
目前对大数据检索问题处理的研究比较少。检索的时候用户通常希望能快速的从所有资料中得到自己所需要的东西。这就涉及到一个速度和准确率如何选取的问题。在二十年甚至十年前,研究者追求的是准确率。因此,设计了各种树形结果KD-tree,M-tree等准确的进行数据库检索,而且取得了很大的应用。近十年,随着网络的日益普及,大数据的产生,准确检索已经满足不了用户的需要。大量文献显示,如果数据的维度小于10维,准确检索能很好的满足用户实际需要。但是维数一旦超过这个阈值或者更高,准确检索的复杂度就非常高,最坏情况达到遍历整个数据库的复杂度,这在实际应用中显然是不可行的。
近年来,近似检索已经取得了显著的发展,特别是网络检索,用户追求的是快速而近似的多媒体检索。在众多的近似检索方法中,哈希方法最为突出。哈希方法的原理是把高维的实数值数据降低到低维二进制数据而且保存数据间的相似性,然后尽量把大数据集保存在计算机内存或者外磁盘,以此达到快速检索的目的。
发明内容
本发明研究大数据近似检索问题。
本发明的目的在于提供简单而有效的大数据近似检索算法。该方法可解决大数据检索高复杂度和低准确率等。即本方法通过保持数据的流行结构来保证二进制尽可能多的保持原始高维数据的局部结构以提高哈希成绩,通过有效的优化方法降低算法复杂度到线性。本发明包含两个关键过程,即哈希函数学习和大数据实时检索。其中哈希函数学习包括高维实数值数据转成低维实数值和低维实数值转成等维二进制两过程。大数据实时检索即根据得到的哈希函数首先转实例为二进制,然后在计算机内存进行检索。
本方法的具体步骤如下:
(1)从大数据中抽样数据当做训练集用于训练哈希函数。大数据数量过于庞大,根据统计理论,没必要用所有数据作为训练集。本发明首先抽样部分数据做为训练集。且抽取的训练集大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差。各种参数设置请见下表。
至此,得到训练集X。
(2)用X训练哈希函数。首先设计目标函数转高维实数数据到低维数据。目标函数定义为:
其中X为训练集,B是基空间,B的每一个向量是从训练集X中训练出来的基向量,S是X被投影在基空间B上的低维实数值,λ1和λ2是通过十折交叉验证方法取得的可调参数,wi,j是X中两个实例xi和xj之间的欧式距离在高斯核上的投影,si和sj是矩阵S中的两个向量,Bi,j是矩阵B中的第i行和第j列元素,i=1,…,n表示实例的记号,j=1,…,k表示基向量的标号,n是实例的个数,k是基向量的个数,表示S中每个元素为非负。
第一项||X-BS||2的目标是在基空间B上重构训练集X得到S而且重构错误希望最小;第二项Σi,jwi,j||si-sj||2是保持原始训练集X的局部流行结果,此项保证二进制数据的保持原始高维数据的相似性,从而保证哈希的成绩;第三项保证得到的S是稀疏的;第四项确保得到S是非负的。根据此目标函数,得到的S是X的低维表示。训练哈希函数的第二步即把S转换成二进制代码:S中非0元素转换成0,否则为1。训练哈希函数的第三步即得到哈希函数。假设S的维度是d,X的维度是D,(D>>d),二进制编码的长度为d。在d维中每一维当做一个向量,此向量为二进制(即分类中的二类问题),本发明为每一维建立一个哈希函数,一共建立d个哈希函数。建立哈希函数的过程很简单,即找到训练集X中哈希值全为1的实例为类Am1,m=1,…,d,剩余哈希值为0的实例归为类Am0,m=1,…,d,得到2d个类,哈希函数定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310457033.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置