[发明专利]一种数据分类方法及相关设备在审
| 申请号: | 201910963502.7 | 申请日: | 2019-10-11 |
| 公开(公告)号: | CN110728322A | 公开(公告)日: | 2020-01-24 |
| 发明(设计)人: | 胡仕军 | 申请(专利权)人: | 深圳市前海随手数据服务有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/04;G06Q40/00 |
| 代理公司: | 44285 深圳市深佳知识产权代理事务所(普通合伙) | 代理人: | 聂秀娜 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本数据 集合 服务器 服务器获取 处理数据 聚类处理 聚类算法 数据分类 正整数 分类 申请 | ||
本申请实施例公开了一种数据分类方法及相关设备,用于自动对样本数据集合进行分类。本申请实施例方法包括:服务器获取样本数据集合,该样本数据集合含有n个样本数据,服务器利用聚类算法对该样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n,服务器按照m个簇对待处理数据进行分类。
技术领域
本申请实施例涉及数据处理领域,特别涉及一种数据分类方法及相关设备。
背景技术
对于类似收支预测的一系列业务,需要划分类别来达到区分不同类别的目的,例如:在预测用户收入时,需要将进行类别划分以便于区分群体。
现有技术是根据人为根据经验将样本划分成不同区间,并按照不同区间进行分类。
发明内容
本申请实施例提供了一种数据分类方法及相关设备,能够自动对样本数据集合进行分类。
本申请实施例第一方面提供了一种数据分类方法,包括:
服务器获取样本数据集合,所述样本数据集合含有n个样本数据;
所述服务器利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
所述服务器按照所述簇对待处理数据进行分类。
优选的,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器利用卡方检验或柯尔莫哥洛夫-斯摩洛夫KS检验判断所述样本数据集合是否均匀分布;
若否,触发所述服务器利用聚类算法对待处理数据集合进行聚类处理的步骤。
优选的,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器计算所述样本数据集合的霍普金斯统计量;
所述服务器判断所述H是否小于第一预设阈值;
若是,表明所述样本数据集合是高度倾斜的,即非均匀分布,触发所述服务器利用聚类算法对所述样本数据集合进行聚类处理的步骤。
优选的,所述服务器计算所述样本数据集合的霍普金斯统计量包括:
所述服务器通过如下方式计算所述样本数据集合的霍普金斯统计量;
均匀地从所述样本数据集合中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在所述样本数据集合中的最近邻,并令xi为pi与它在所述样本数据集合中的最近邻之间的距离:
均匀地从所述样本数据集合中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在所述样本数据集合中的最近邻,并令yi为qi与它在所述样本数据集合中的最近邻之间的距离:
计算所述样本数据集合的霍普金斯统计量H:
优选的,所述聚类算法为K-means算法或者DBSCAN算法。
优选的,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之后,所述方法还包括:
所述服务器计算每个簇的轮廓系数,得到n个轮廓系数:
所述服务器计算所述n个轮廓系数的平均轮廓系数;
所述服务器判断所述平均轮廓系数是否大于第二预设阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海随手数据服务有限公司,未经深圳市前海随手数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910963502.7/2.html,转载请声明来源钻瓜专利网。





