[发明专利]一种基于双层锚点图投影优化的高维向量数据可视化方法及系统有效
申请号: | 201910343325.2 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110188098B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 付聪;张永辉;蔡登 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/26;G06F16/28 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双层 锚点图 投影 优化 向量 数据 可视化 方法 系统 | ||
1.一种基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,包括:
(1)对原始的高维向量数据集D进行K-means聚类,将得到的聚类中心作为锚点集合A,聚类数目kc为预设值;
(2)根据锚点集合A建立高维向量数据集D的倒排索引IVF;
(3)使用倒排索引建立高维向量数据集D的近似kD近邻图GD,kD为预设值;
(4)针对高维向量数据集D中的每个点d,暴力搜索距离d最近的c个锚点,并将这c个锚点作为d的邻居添加到近邻图GD,c为预设值;
(5)在锚点集合A上用暴力检索方式构建锚点kA近邻图GA,kA为预设值;
(6)基于GD和GA所表示成的高维空间数据结构信息,使用双层投影优化算法产生低维空间可视化投影;使用双层投影优化算法的具体步骤如下:
(6-1)在低维空间中,随机初始化投影得到对应在低维空间中投影锚点集合的各点坐标;所述低维空间的维度为二维或三维;
(6-2)基于锚点最近邻图GA,计算高维空间中锚点集合的距离概率分布,计算方式如下:
对锚点集合中任意两点ai,aj∈A,假设他们的距离分布服从高斯分布,写为:
P(ai|aj)为以aj为中心的条件概率分布,表示为:
其中,为保存在锚点最近邻图GA中的锚点aj的最近锚点点集合;为该条件概率分布的标准差,设置为固定值或通过设置一个分布散度后用二分查找法进行估计;
(6-3)计算低维空间中投影锚点集合的距离概率分布,计算公式如下:
假设低维空间中任意两点之间的距离概率分布服从student t-分布,写为:
(6-4)最小化高低维空间之间锚点距离概率分布的Kullback-Leibler散度,用随机梯度下降方法优化该目标函数直至收敛,其中,
(6-5)初始化低维空间中投影普通点集合中各点坐标,具体为:对每个锚点ai,计算ai与其最近锚点aj之间的距离l(ai,aj);根据倒排索引IVF,将以ai为聚类中心的普通点初始化为以ai为球心,以为半径的球内随机点;
(6-6)计算高维空间中普通点集合D上的距离概率分布,假设为高斯分布:
其中,是点di的近邻集合,包括普通点近邻和锚点近邻,P(di,dj)和P(di,aj)的定义如下:
(6-7)计算低维空间中投影普通点集合上的距离概率分布,计算公式如下:
其中,为的负采样点集合,负采样用来抵消近邻点对产生的过大的拉力;
(6-8)最小化高低空间普通点距离概率分布间的Kullback-Leibler散度用随机梯度下降法优化该目标函数一步迭代,更新低维空间普通点坐标;
(6-9)根据新的低维空间普通点坐标,更新低维空间锚点坐标:
其中,代表倒排项中所有普通点的集合,代表该集合大小;
(6-10)用随机梯度下降方法继续优化目标函数进行一次迭代;
(6-11)重复步骤(6-8)到(6-10)直到到达最大迭代次数。
2.根据权利要求1所述的基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,步骤(1)中,对于数据点超过500万的大规模数据集,通过采样出一个不超过一百万点的子集进行K-means聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910343325.2/1.html,转载请声明来源钻瓜专利网。