[发明专利]一种基于微型计算平台的实时响应大媒体近邻检索方法有效

专利信息
申请号: 201810038892.2 申请日: 2018-01-16
公开(公告)号: CN108256058B 公开(公告)日: 2021-05-07
发明(设计)人: 王振;孙福振;王雷;李鑫鑫 申请(专利权)人: 山东理工大学
主分类号: G06F16/43 分类号: G06F16/43
代理公司: 济南智圆行方专利代理事务所(普通合伙企业) 37231 代理人: 张玉琳
地址: 255000 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 微型 计算 平台 实时 响应 媒体 近邻 检索 方法
【权利要求书】:

1.一种基于微型计算平台的实时响应大媒体近邻检索方法,其特征在于,包括如下步骤:

a:学习待查询数据集的全局高维浮点特征向量集合F={F1,F2,…,Fn},其中包含n个特征向量;

b:为了保证汉明空间内的近邻检索结果与原空间内的近邻检索结果之间具有较高的一致性,分别定义了序列保持约束条件R和聚类分布约束条件A;

c:采用随机梯度下降算法寻找满足序列保持约束条件和空间分布关系约束条件的二值编码中心点时,为了使得算法能够快速收敛到所有极小值点,需预先粗略判断目标函数中的极小值点,并在其附近初始化算法的输入;由于A的定义与聚类算法的约束条件类似,因此可根据聚类中心点来估算目标函数R+A的极小值点;

c01:均匀采样数据点的分布区域,然后统计落在每一个采样区域内的高维浮点特征的数量,并将其作为区域的密度值;

c02:中心点附近一般会聚集大量的数据点,密度值较大;若区域的密度值低于平均值,则该区域含有聚类中心点的概率较小,本发明将舍弃密度值较小的区域;

c03:若两个区域之间的距离较小,则从这两个区域中选择的初始点会使得算法收敛到相同的极值点;因此,将合并距离相对较近的高密度区域;

c04:经过所述c02和c03处理之后,将区域中所有数据点的均值作为候选初始中心点集合E'={P1,P2,…,Pt},其中含有t个候选初始中心点;

c05:若t2bit(bit表示二值编码的长度,2bit表示编码中心点的数量),则转步骤d;否则,所要寻找的中心点的数量不少于目标函数中可能存在的极小值点的数量,只需从数据集中再随机选择2bit-t个数据点与E'中的点共同构成初始中心点集合E,并转步骤e寻找最优编码中心点;

d:构建多组初始中心点集合;

t2bit,表明所要寻找的中心点的数量少于目标函数中极小值点的数量;若仅根据一组中心点集合,将无法找到目标函数中的所有极小值点;对于这种情况,进行多组初始中心点集合的构建;

e:根据步骤c或d中的初始中心点集合,采用随机梯度下降算法,寻找同时满足序列保持约束条件和聚类分布约束条件的编码中心点集合;

f:建立距离表,为保证高区分性,根据所述c04中的候选初始中心点集合E'建立距离表;

f01:计算并比较候选初始中心点P1,P2,…,Pt与集合{C1,C2,...,Cl}中的中心点之间的距离值,赋予候选初始中心点与其距离最近的编码中心点相同的二值编码,候选初始中心点的二进制编码集合为{B1,B2,…,Bt},其中Bi={bi1,bi2,…,bil}表示Pi的多组二进制编码,1≤i≤t,bij(1≤j≤l)表示Pi根据编码中心点集合Cj生成的二进制编码;

f02:计算距离表的每一个位置中的值,若距离表的位置索引为(b,b'),则将{B1,B2,…,Bt}中能构成二值编码对(b,b')的数据点之间的距离值存储在该位置中;

g:在微型计算平台上生成查询多媒体数据的全局浮点特征Fq,并根据{C1,C2,...,Cl}生成Fq的多组二值编码bq1,bq2,…,bql

h:计算Fq的多组二值编码与待查询数据点的多组二值编码之间的平均汉明距离,并按照从小到大的顺序排列待查询数据库中的数据点;若仅有少量数据点共享同一较小的汉明距离值,则将这些数据点作为最终的近邻检索结果,并转步骤j;否则,返回平均汉明距离值较小的数据点作为备选查询结果,并转步骤i;

i:根据后验证距离表,重新判断备选查询结果中的数据点与查询数据点之间的相似性,并对其重排序;

j:返回查询结果中排名较靠前的二值编码特征所对应的多媒体数据,作为最终的多媒体近邻查询结果;

所述步骤b中,

所述序列保持约束条件定义为:在欧式空间内,根据Fm(1≤m≤n,Fm表示F中的第m个高维浮点向量)与F中其余特征向量之间的欧式距离,对F中的浮点向量进行排序,得到结果为:将F中的浮点向量映射为二进制编码后,根据它们之间的汉明距离关系,可得到另一种排序结果:序列保持约束条件要求两种不同排序之间具有较高的一致性,即在不同排序中的同一位置上具有相同的元素,其定义如下式所示:

表示在欧式空间内序列号为m的特征向量,Ph(·)返回该特征向量在汉明空间内的位置序列号,I(·)是判断函数,若特征向量在汉明空间和欧式空间内的序列号不一致,则目标函数的值将被增加;通过最小化上述目标函数的值,可使得特征向量在不同空间内的序列号具有一致性,从而在汉明空间内得到准确率较高的近邻检索结果;

所述聚类分布约束条件定义为:

若浮点向量被映射成长度为bit的二进制编码,则共存在2bit种二进制编码;对于海量数据库而言,数据点的数量远远大于2bit,将有多个数据点被映射为相同编码;拥有相同二进制编码的数据点应符合聚类分布特性,其约束条件的定义如下式所示:

其中C(Fm)表示与Fm具有相同二值编码的中心点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东理工大学,未经山东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810038892.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top