[发明专利]一种融合特征学习的自适应快速K-means聚类方法在审
申请号: | 201910209441.5 | 申请日: | 2019-03-19 |
公开(公告)号: | CN109978042A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 王晓栋;严菲;曾志强;陈玉明;洪朝群 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 泉州市潭思专利代理事务所(普通合伙) 35221 | 代理人: | 麻艳 |
地址: | 361024 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 自适应 矩阵 聚类中心 区分信息 特征学习 最优特征子集 预处理 归一化处理 计算机视觉 特征子空间 动态调节 更新过程 构造特征 机器学习 计算数据 聚类过程 可扩展性 数据分布 数据属性 数据样本 数据重复 特征选择 稀疏特性 应用提供 有效支持 准确度 融合 引入 更新 权重 散度 筛选 融入 | ||
1.一种融合特征学习的自适应快速K-means聚类方法,其特征在于包括如下步骤:
步骤1,对待处理数据进行预处理,并对各数据属性进行归一化处理,进而获得n组包括D个特征的无标签数据X=[x1,x2,…,xn]∈RD×n,其中xi∈RD×1表示第i个数据样本,i=1,2,…,n;计算数据总散度矩阵St;
步骤2,设定待选择的子特征数d,类别数c,平衡因子λ和自适应因子σ,初始化权重矩阵Δ为单位矩阵,并随机初始化特征选择矩阵W和聚类中心矩阵G,其中G=[g1,g2,…,gc]∈Rd×c,gk表示第k个聚类中心向量,k=1,2,…,c;
步骤3,建立聚类模型如下:
其中,F=[f1,f2,…,fn]T∈{0,1}n×c为类别标签矩阵,fi表示第i个数据样本的类别标签,i=1,2,…,n;
以上模型的最优解等同于:
其中,
设定Δ=diag(τ1,τ2,…,τn)为一个对角矩阵,且U=[u1,u2,…,un]T=XTW-FGT,则最终目标函数转化为:
步骤4,求解以上目标函数,直至满足结束条件,输出特征选择矩阵W,聚类中心矩阵G及类别标签矩阵F。
2.如权利要求1所述的方法,其特征在于:所述步骤1中,对待处理数据进行预处理,包括解决待处理数据中属性缺失及数据重复的问题。
3.如权利要求1所述的方法,其特征在于:所述步骤1中,数据总散度矩阵St的计算公式是
4.如权利要求1所述的方法,其特征在于:所述步骤2中,平衡因子λ从{ε,1,2,∞}中选取,ε代表接近0的任一正数,∞代表足够的大任一正数,自适应因子σ采用栅格法选取。
5.如权利要求1所述的方法,其特征在于:所述步骤2中,特征选择矩阵W的表达式为:
W=[wI(1),wI(2),…,wI(d)]
其中,I是集合{1,2,…,D}的一组全排列且I(i)是其第i个元素。
6.如权利要求1所述的方法,其特征在于:所述步骤4的具体内容是:
步骤41,给定W,Δ,G,优化F;将目标函数转化为通过在低维子空间上执行K-means求解,即:
步骤42,给定F,Δ,优化G,W;取目标函数相对于G的导数,并令求导结果为0,得G=WTXΔF(FTΔF)-1,将G代入目标函数后,得:
其中,Sw=X(Δ-ΔF(FTΔF)-1FTΔ)XT为加权类内散度矩阵,M=St-λSw;
上式中W的最优解通过求解矩阵M的前d个最大对角元素获得;令N=Δ-ΔF(FTΔF)-1FTΔ,则M的第i个对角元素Mii通过下列公式快速获取:
其中,Xi:和分别代表矩阵X和的第i行元素所组成的向量;
步骤43,利用步骤41和步骤42中计算出的F,W,G更新Δ,Δ的第i个对角元素的值更新为:
步骤45:重复步骤41-步骤43直到满足结束条件,输出特征选择矩阵W,聚类中心矩阵G及类别标签矩阵F。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910209441.5/1.html,转载请声明来源钻瓜专利网。