[发明专利]一种快速Top-N排序方法在审

专利信息
申请号: 202210157203.6 申请日: 2022-02-21
公开(公告)号: CN114527954A 公开(公告)日: 2022-05-24
发明(设计)人: 朱鹏;郑星剑;方伟 申请(专利权)人: 浙江芯昇电子技术有限公司
主分类号: G06F7/08 分类号: G06F7/08
代理公司: 南京华讯知识产权代理事务所(普通合伙) 32413 代理人: 刘小吉
地址: 310051 浙江省杭州市滨江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 top 排序 方法
【说明书】:

本发明提供一种Top‑N排序方法,该方法包含以下步骤:数据预处理,所述数据预处理步骤用于确定直方图中区域的个数和区域的范围;直方图计算,所述直方图计算步骤用于确定每个直方图区域中的样本数;通过所述直方图计算步骤中的计算结果,确定Top‑N的有效样本区域;提取有效样本;以及对有效样本进行Top‑N排序。该方法通过先提取有效样本,再对有效样本进行排序找到Top‑N数据的方法,基本上去除了冗余的排序的计算,从而极大地提高了Top‑N排序方法的效率,尤其是对于样本数量较大但是有效数据N较小的情况,该方法将极大地减少了参与排序的样本数据,提高了排序方法的计算效率。

技术领域

本发明涉及数据统计和处理技术领域,特别涉及一种快速Top-N排序方法。

背景技术

随着科学技术的快速发展以及移动互联网的普及,各行各业中均开始使用互联网相关的技术。随着各行各业在日常运作中对互联网的使用,每天将产生海量蕴含丰富信息的数据,并且这些数据可能具有较高的应用价值。因此,需要对这些数据进行处理分析,以挖掘这些数据的价值。

目前,对海量数据进行处理分析,可以采用多种方法,如数据排序分析、数据建模分析、数据统计分析等技术方法。其中,对海量数据中的对象进行排序,以获取海量数据中有价值的数据信息是一种常用的技术手段。但是这些海量数据中,并非每个数据的价值均相同,如积分排名中的前10名,全国污染指数最低的前10名,人均产值最高的城市前10名,这些数据将比其他的数据具有更大的意义,因此,我们需要采用排序的方法从海量数据中挑选出这些数据的Top-N。

Top-N的含义为依照排序方式输出前N个对象,其中N为非零自然数。当排序方式为升序排列时,Top-N的含义为输出数据值最小的前N个对象;当排序方式为降序排列时,Top-N的含义为输出数据值最大的前N个对象。Top-N的排序方法目前常用在大数据对比、底库搜素等领域,如人脸比对、车辆比对等。通过提取目标的特征值,将特征与底库的样本特征进行相似度计算,再对相似对进行排序找出最接近的N个目标。目前人员比对底库样本数量已经高达亿量级,因此,Top-N排序方法的效率很大程度上决定了整个比对算法的效率。

专利CN110262770A《一种按位的排序方法》中,提供一种按位的排序方法,在排序过程中均按照位数和每一个位数上的数字来进行排序,但是在该方法中,仍然需要对所有的样本进行排序,时间复杂度将会随着样本的增多而增大。

在专利CN105574344A《一种金字塔排序算法》中,先找到一个为2的整数次幂的整数,然后把要排序的n个数据放入b数组中,再逐一比较b数组中相邻数据,将相对大数的下标放入c数组的m/2-m-1单元中;然后在逐个比较b[c[m/2]]-b[c[m-1]]中的相邻数据,并将相对大数的下标放入c[m/2-1]-c[m/4]中,依次类推,最后整个b数组最大数数据的下标就会被放入c[1]中,然后不断找出b数组中的最大值,完成排序。该专利中提供的方法具有如下缺点:(1)在该方法中,仍然需要对所有的样本进行排序;(2)该方法在排序序列基本有序的情况下,其排序速度明显优于快速排序,但是在实际应用中,并不是每个排序序列都是基本有序的,因此,该方法的应用场景较为有限,并不能在所有的Top-N排序中均能达到提速的效果。

目前现有的Top-N排序方法共有的缺陷是:Top-N排序最终有效的数据集中包含的数据只有N个,但是参与排序的数据却是整个数据集中的所有样本,当总样本的数量M远大于N时,排序计算中绝大部分的计算都是无效的,这些无效的计算将极大地降低Top-N排序方法的效率。

因此,亟需一种快速的Top-N排序方法,其能在对任何数据进行Top-N排序时,均能提高排序方法的效率。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江芯昇电子技术有限公司,未经浙江芯昇电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210157203.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top