[发明专利]度量空间划分方式评价方法、装置、计算机设备及存储介质有效
| 申请号: | 202010686305.8 | 申请日: | 2020-07-16 |
| 公开(公告)号: | CN111831660B | 公开(公告)日: | 2021-03-30 |
| 发明(设计)人: | 毛睿;赖裕雄;李胜;陈家颖;陈汝斌;戴英龙;陆敏华 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/28 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 度量 空间 划分 方式 评价 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了度量空间划分方式评价方法、装置、计算机设备及存储介质,方法包括:对数据库中的数据进行度量空间的划分,获取n个法向量;输入n个法向量作为划分超平面的法向量和范围搜索半径r;利用选点算法选取n个支撑点;以数据到支撑点的距离作为坐标,将度量空间中的数据映射为二维向量数据;对数据进行完全划分,并计算落入r‑邻域的数据;输出落入r‑邻域的数据的数目,并根据所述数目输出划分方法的评价结果。本发明不需要对数据库中的所有数据进行范围搜索,只需要在创建索引时计算出落入划分边界附近无法被排除的数据个数即可,极大地降低了评价的时间成本和提高了效率。
技术领域
本发明涉及数据处理技术领域,特别涉及度量空间划分方式评价方法、装置、计算机设备及存储介质。
背景技术
现有的树形度量空间索引大多是基于距离划分的,利用若干个数据到支撑点的距离之间的关系将数据空间划分成多个区域,以求在对索引进行范围搜索时可以排除掉部分区域从而提高搜索效率。现有基于划分的度量空间索引主要是基于球形划分或者基于超平面划分进行的。
其中,现有的基于划分的度量空间索引,根据划分结果的子空间的逻辑形态,大多可以分为以球形划分为基础和以超平面为基础两部分。
基于球形划分的索引方法利用支撑点和半径作为参数将空间划分成多个球子空间,典型的形态有以vp-tree为代表的对空间进行球形划分和以M-tree为代表的层次球形划分两种。vp-tree直接利用数据到支撑点的距离,将数据划分成球内和球外两个部分,而M-tree利用最小边界球的形式将数据进行平衡划分。
基于超平面划分的核心思想是将数据划分到离自己最近的支撑点所代表的区域,划分后的空间在逻辑上显现出Voronoi的形态。基于超平面划分的最基本形式是JeffreyK.Uhlmann提出来的超平面树gh-tree和Sergey Brin提出了 GNA-tree。超平面划分的结果具有良好的几何特性,其划分所得的各区域之间不相互重叠。
但不同索引之间的性能比较都是通过各自进行,而不同的索引方法的索引条件往往是不相同的,性能影响也由多个因素共同决定,支撑点的不同、划分方式的不同、索引的平衡性等等都会对索引的性能造成较大的影响。利用不同的索引直接进行性能比较无法比对,无法客观地反映不同划分方式的内在差异,各种条件的差异也大大降低了客观性,同时效率低,时间成本高。
发明内容
本发明的目的是提供度量空间划分方式评价方法、装置、计算机设备及存储介质,旨在解决现有评价方式效率低、时间成本高等问题。
本发明实施例提供一种度量空间划分方式评价方法,其中,包括:
对数据库中的数据进行度量空间的划分,获取n个法向量;
输入n个法向量作为划分超平面的法向量和范围搜索半径r;
利用选点算法选取n个支撑点;
以数据到支撑点的距离作为坐标,将度量空间中的数据映射为二维向量数据;
对数据进行完全划分,并计算落入r-邻域的数据;
输出落入r-邻域的数据的数目,并根据所述数目输出划分方法的评价结果。
进一步,所述对数据进行完全划分,并计算落入r-邻域的数据,包括:
判断向量组中的向量是否用完,若是则统计落入r-邻域的数据的数目;
若否则利用法向量和范围搜索半径r计算r-邻域的宽度;
依次取出法向量对当前子空间进行独立的划分,并标记落入划分边界r邻域的数据;
统计落入r-邻域的数据的数目。
进一步,所述利用法向量和范围搜索半径r计算r-邻域的宽度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010686305.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种喷雾枪
- 下一篇:风险评估方法、装置、计算机设备以及介质





