[发明专利]一种融合特征学习的自适应快速K-means聚类方法在审
申请号: | 201910209441.5 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109978042A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 王晓栋;严菲;曾志强;陈玉明;洪朝群 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 泉州市潭思专利代理事务所(普通合伙) 35221 | 代理人: | 麻艳 |
地址: | 361024 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 自适应 矩阵 聚类中心 区分信息 特征学习 最优特征子集 预处理 归一化处理 计算机视觉 特征子空间 动态调节 更新过程 构造特征 机器学习 计算数据 聚类过程 可扩展性 数据分布 数据属性 数据样本 数据重复 特征选择 稀疏特性 应用提供 有效支持 准确度 融合 引入 更新 权重 散度 筛选 融入 | ||
本发明公开一种融合特征学习的自适应快速K‑means聚类方法,首先对数据进行预处理,排除其中属性缺失、数据重复问题,对各数据属性进行归一化处理;计算数据总散度矩阵,并引入稀疏特性构造特征选择矩阵;在特征子空间上执行K‑means聚类方法,且在聚类中心更新过程中,引入自适应因子动态调节每个数据样本权重;根据聚类间的可区分信息,更新特征选择矩阵,进而筛选出最优特征子集。此种方法使得传统K‑means聚类方法能够高效地利用聚类间和聚类内的可区分信息、以及特征之间的相关性信息提高聚类的准确度,还在聚类过程中融入自适应因子,根据不同类型数据分布的特点更新聚类中心,具备较高的实用性及可扩展性,可为机器学习、计算机视觉等相关应用提供有效支持。
技术领域
本发明属于机器学习技术领域,特别涉及一种融合特征学习的自适应快速K-means聚类方法。
背景技术
聚类方法是在机器学习领域应用非常广泛的一项技术,其中以K-means方法应用最为广泛,其在数据挖掘、医疗、教育等多种领域取得了很好的效果。然而,随着多媒体技术和互联网技术高速发展,高维数据呈现爆发式增长,给传统K-means方法带来了巨大挑战。由于高维数据中往往存在冗余特征和噪声特征,直接对这类数据应用K-means聚类不但需要消耗大量计算资源此外,而且也会影响其聚类准确度。最新研究表明,若预先对数据特征进行降维处理,K-means的聚类效率将得到有效提升。
近年来,有一些研究已经将降维方法(如线性判别分析(Linear DiscriminantAnalysis,LDA)、正交质心法(Orthogonal Centroid Method,OCM)等方法)与K-means进行结合,利用前者为后者提供最优子空间,而将后者在子空间上聚类结果作为前者的“标签”信息。虽然,此类方法能有效提高K-means的聚类准确度,但其均需借助特征分解操作求解最优特征子空间,其计算复杂度将随待处理数据特征维度平方级增长,且得到的特征子空间与原始特征空间差异较大,很难适用于真实应用场景中的高维数据处理。
发明内容
本发明的目的,在于提供一种融合特征学习的自适应快速K-means聚类方法,使得传统K-means聚类方法能够通过高效地利用聚类间和聚类内的可区分信息、以及特征之间的相关性信息提高聚类的准确度;同时,该方法还在聚类过程中融入了自适应因子,能根据不同类型数据分布的特点更新聚类中心,具备较高的实用性及可扩展性,可为机器学习、计算机视觉等相关应用提供有效支持。
为了达成上述目的,本发明的解决方案是:
一种融合特征学习的自适应快速K-means聚类方法,包括如下步骤:
(1)对待处理数据进行预处理,解决待处理数据中属性缺失、数据重复问题,并对各数据属性进行归一化处理,进而获得n组包括D个特征的无标签数据X=[x1,x2,…,xn]∈RD×n,其中xi∈RD×1表示第i个数据样本;计算数据集总散度矩阵
(2)设定待选择的子特征数d,并构造特征选择矩阵W:
W=[wI(1),wI(2),…,wI(d)]
其中,I是集合{1,2,…,D}的一组全排列且I(i)是其第i个元素;
(3)给定矩阵A=[a1,a2,…,an]∈Rm×n,定义其自适应损失函数如下:
其中,σ>0是自适应因子;
(4)设定类别数c,在K-means算法和步骤(3)的基础上构建数据集在子空间上的聚类模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910209441.5/2.html,转载请声明来源钻瓜专利网。