[发明专利]一种数据分类方法及相关设备在审
| 申请号: | 201910963502.7 | 申请日: | 2019-10-11 |
| 公开(公告)号: | CN110728322A | 公开(公告)日: | 2020-01-24 |
| 发明(设计)人: | 胡仕军 | 申请(专利权)人: | 深圳市前海随手数据服务有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/04;G06Q40/00 |
| 代理公司: | 44285 深圳市深佳知识产权代理事务所(普通合伙) | 代理人: | 聂秀娜 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本数据 集合 服务器 服务器获取 处理数据 聚类处理 聚类算法 数据分类 正整数 分类 申请 | ||
1.一种数据分类方法,其特征在于,包括:
服务器获取样本数据集合,所述样本数据集合含有n个样本数据;
所述服务器利用聚类算法对所述样本数据集合进行聚类处理,得到m个簇,n和m为大于等于2的正整数,且m小于等于n;
所述服务器按照所述簇对待处理数据进行分类。
2.根据权利要求1所述的数据分类方法,其特征在于,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器利用卡方检验或柯尔莫哥洛夫-斯摩洛夫KS检验判断所述样本数据集合是否均匀分布;
若否,触发所述服务器利用聚类算法对待处理数据集合进行聚类处理的步骤。
3.根据权利要求1所述的数据分类方法,其特征在于,所述服务器获取样本数据集合之后,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
所述服务器计算所述样本数据集合的霍普金斯统计量;
所述服务器判断所述H是否小于第一预设阈值;
若是,表明所述样本数据集合是高度倾斜的,即非均匀分布,触发所述服务器利用聚类算法对所述样本数据集合进行聚类处理的步骤。
4.根据权利要求3所述的数据分类方法,其特征在于,所述服务器计算所述样本数据集合的霍普金斯统计量包括:
所述服务器通过如下方式计算所述样本数据集合的霍普金斯统计量;
均匀地从所述样本数据集合中抽取n个点p1,p2,...pn,对每个点pi(1≤i≤n),找出pi在所述样本数据集合中的最近邻,并令xi为pi与它在所述样本数据集合中的最近邻之间的距离:
均匀地从所述样本数据集合中抽取n个点q1,q2,...qn,对每个点qi(1≤i≤n),找出qi在所述样本数据集合中的最近邻,并令yi为qi与它在所述样本数据集合中的最近邻之间的距离:
计算所述样本数据集合的霍普金斯统计量H:
5.根据权利要求1所述的数据分类方法,其特征在于,所述聚类算法为K-means算法或者DBSCAN算法。
6.根据权利要求1所述的数据分类方法,其特征在于,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之后,所述方法还包括:
所述服务器计算每个簇的轮廓系数,得到n个轮廓系数:
所述服务器计算所述n个轮廓系数的平均轮廓系数;
所述服务器判断所述平均轮廓系数是否大于第二预设阈值;
若是,触发所述服务器按照所述簇对待处理数据进行分类;
若否,所述服务器优化所述算法的参数;
所述服务器利用优化后的算法对所述样本数据集合进行聚类处理,得到m个优化簇;
触发所述服务器计算所述优化簇的轮廓系数。
7.根据权利要求6所述的数据分类方法,其特征在于,所述服务器计算每个簇的轮廓系数包括:
所述服务器通过如下方式计算每个簇的轮廓系数,得到n个轮廓系数:
所述o为所述簇内的任一个样本数据,所述S(o)为所述轮廓系数,a(o)为o与o所属簇内其他样本数据之间的平均距离,b(o)为o到不包含o的所有簇的最小平均距离。
8.根据权利要求1所述的数据分类方法,其特征在于,所述服务器利用聚类算法对所述样本数据集合进行聚类处理之前,所述方法还包括:
当所述样本数据集合中的样本数据为一维数据,且所述聚类算法只支持二维数据处理时,所述服务器将所述样本数据从一维数据转化为二维数据,所述一维数据为线上的一个坐标值,所述二维数据为平面中的两个坐标值;
触发所述服务器按照所述区间对待处理样本集合进行分类的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市前海随手数据服务有限公司,未经深圳市前海随手数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910963502.7/1.html,转载请声明来源钻瓜专利网。





