[发明专利]基于随机采样聚类的带噪音数据分类方法及用户分类方法在审
| 申请号: | 202210375631.6 | 申请日: | 2022-04-11 |
| 公开(公告)号: | CN114742155A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 冯启龙;凌新城;黄俊予;王建新 | 申请(专利权)人: | 中南大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
| 地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 随机 采样 噪音 数据 分类 方法 用户 | ||
1.一种基于随机采样聚类的带噪音数据分类方法,包括如下步骤:
S1.获取带噪音的待分类数据集;
S2.对步骤S1获取的数据集进行随机采样,并将采样得到的数据加入到中心点集,完成中心点集的初始化;
S3.基于贪心算法,对数据集进行迭代处理:每次迭代时,获取距离中心点集最远的若干个数据点,并在获取的数据点中采样部分数据并加入到中心点集中;
S4.对中心点集中的数据进行枚举,获取代价最小的若干个数据点作为聚类的中心点;
S5.将数据集中的各个数据点,分配到距离自身最近的中心点上,完成基于随机采样聚类的带噪音数据分类。
2.根据权利要求1所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤S2所述的对步骤S1获取的数据集进行随机采样,具体包括如下步骤:
采用如下算式作为随机采样过程的目标函数
maxp∈X(min1≤j≤Kd(p,cj))
式中X为步骤S1获取的数据集中去除噪音点的子集,且Z为去除的噪音点的个数,N为步骤S1获取的数据集中所有数据的个数;p为集合X中的数据点;将集合X分为K个簇,ci为所选的第i个中心点集的中心点;d(p,cj)为数据点p到第j个中心点集的中心点cj的距离;随机采样的数据点的个数为其中log()表示以2为底数的对数,η为设定的参数,γ为数据点集中采样到噪音点的概率且z为默认的噪音点的个数,n为数据集大小。
3.根据权利要求2所述的基于随机采样聚类的带噪音数据分类方法,其特征在于所述的步骤S3,具体包括如下步骤:
基于贪心算法的思想,每次选取距离中心点集最远的(1+ε)z个数据点;其中ε为输入的参数默认为0.1,z为默认的噪音点的个数;
然后随机从(1+ε)z个数据点中选取个数据点,并加入到中心点集中;
在迭代过程中进行判断:
若在当前轮次的迭代中满足条件d(Qj,E)≤2ropt,则直接将当前轮次选取的(1+ε)z个数据点作为噪音点,并直接丢弃;其中Qj为所选噪音点,E为候选中心集,ropt为k-中心的最优半径,d(Qj,E)为所选噪音点到候选中心集的距离,该距离被表示为两个数据集的最短距离;
若在当前轮次的迭代中不满足条件d(Qj,E)≤2ropt,则继续进行下一轮次的迭代。
4.根据权利要求3所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤S4中所述的代价,具体为采用如下步骤得到代价:
以候选中心集中的k个候选中心点为中心点,并将所有数据点分配给距离自己最近的候选中心点;此时,数据集被划分为k个簇,以其中最大簇的半径作为代价值。
5.一种包括了权利要求1~4之一所述的基于随机采样聚类的带噪音数据分类方法的用户分类方法,具体包括如下步骤:
A.获取原始的用户基本信息;
B.将步骤A获取的用户基本信息作为带噪音的待分类数据集;
C.采用权利要求1~4之一所述的基于随机采样聚类的带噪音数据分类方法,对待分类数据集进行数据分类;
D.根据步骤C得到的分类结果,对用户进行分类;其中,用户分类是按照用户之间的信息差异进行分类,差异采用欧氏距离表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210375631.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水性环氧树脂分散体的制备方法
- 下一篇:用于自组网的无人车





