[发明专利]一种快速Top-N排序方法在审
| 申请号: | 202210157203.6 | 申请日: | 2022-02-21 |
| 公开(公告)号: | CN114527954A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 朱鹏;郑星剑;方伟 | 申请(专利权)人: | 浙江芯昇电子技术有限公司 |
| 主分类号: | G06F7/08 | 分类号: | G06F7/08 |
| 代理公司: | 南京华讯知识产权代理事务所(普通合伙) 32413 | 代理人: | 刘小吉 |
| 地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 top 排序 方法 | ||
本发明提供一种Top‑N排序方法,该方法包含以下步骤:数据预处理,所述数据预处理步骤用于确定直方图中区域的个数和区域的范围;直方图计算,所述直方图计算步骤用于确定每个直方图区域中的样本数;通过所述直方图计算步骤中的计算结果,确定Top‑N的有效样本区域;提取有效样本;以及对有效样本进行Top‑N排序。该方法通过先提取有效样本,再对有效样本进行排序找到Top‑N数据的方法,基本上去除了冗余的排序的计算,从而极大地提高了Top‑N排序方法的效率,尤其是对于样本数量较大但是有效数据N较小的情况,该方法将极大地减少了参与排序的样本数据,提高了排序方法的计算效率。
技术领域
本发明涉及数据统计和处理技术领域,特别涉及一种快速Top-N排序方法。
背景技术
随着科学技术的快速发展以及移动互联网的普及,各行各业中均开始使用互联网相关的技术。随着各行各业在日常运作中对互联网的使用,每天将产生海量蕴含丰富信息的数据,并且这些数据可能具有较高的应用价值。因此,需要对这些数据进行处理分析,以挖掘这些数据的价值。
目前,对海量数据进行处理分析,可以采用多种方法,如数据排序分析、数据建模分析、数据统计分析等技术方法。其中,对海量数据中的对象进行排序,以获取海量数据中有价值的数据信息是一种常用的技术手段。但是这些海量数据中,并非每个数据的价值均相同,如积分排名中的前10名,全国污染指数最低的前10名,人均产值最高的城市前10名,这些数据将比其他的数据具有更大的意义,因此,我们需要采用排序的方法从海量数据中挑选出这些数据的Top-N。
Top-N的含义为依照排序方式输出前N个对象,其中N为非零自然数。当排序方式为升序排列时,Top-N的含义为输出数据值最小的前N个对象;当排序方式为降序排列时,Top-N的含义为输出数据值最大的前N个对象。Top-N的排序方法目前常用在大数据对比、底库搜素等领域,如人脸比对、车辆比对等。通过提取目标的特征值,将特征与底库的样本特征进行相似度计算,再对相似对进行排序找出最接近的N个目标。目前人员比对底库样本数量已经高达亿量级,因此,Top-N排序方法的效率很大程度上决定了整个比对算法的效率。
在专利CN110262770A《一种按位的排序方法》中,提供一种按位的排序方法,在排序过程中均按照位数和每一个位数上的数字来进行排序,但是在该方法中,仍然需要对所有的样本进行排序,时间复杂度将会随着样本的增多而增大。
在专利CN105574344A《一种金字塔排序算法》中,先找到一个为2的整数次幂的整数,然后把要排序的n个数据放入b数组中,再逐一比较b数组中相邻数据,将相对大数的下标放入c数组的m/2-m-1单元中;然后在逐个比较b[c[m/2]]-b[c[m-1]]中的相邻数据,并将相对大数的下标放入c[m/2-1]-c[m/4]中,依次类推,最后整个b数组最大数数据的下标就会被放入c[1]中,然后不断找出b数组中的最大值,完成排序。该专利中提供的方法具有如下缺点:(1)在该方法中,仍然需要对所有的样本进行排序;(2)该方法在排序序列基本有序的情况下,其排序速度明显优于快速排序,但是在实际应用中,并不是每个排序序列都是基本有序的,因此,该方法的应用场景较为有限,并不能在所有的Top-N排序中均能达到提速的效果。
目前现有的Top-N排序方法共有的缺陷是:Top-N排序最终有效的数据集中包含的数据只有N个,但是参与排序的数据却是整个数据集中的所有样本,当总样本的数量M远大于N时,排序计算中绝大部分的计算都是无效的,这些无效的计算将极大地降低Top-N排序方法的效率。
因此,亟需一种快速的Top-N排序方法,其能在对任何数据进行Top-N排序时,均能提高排序方法的效率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江芯昇电子技术有限公司,未经浙江芯昇电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210157203.6/2.html,转载请声明来源钻瓜专利网。





