[发明专利]基于DC规划处理缺失数据的聚类方法在审
| 申请号: | 201610216242.3 | 申请日: | 2016-04-05 |
| 公开(公告)号: | CN107291765A | 公开(公告)日: | 2017-10-24 |
| 发明(设计)人: | 陈松灿;贺丹 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211106 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 dc 规划 处理 缺失 数据 方法 | ||
1.一种基于DC规划处理缺失数据的聚类方法,其特征在于,包括下列步骤:
第一步,对数据集缺失项采用该特征的平均值进行初始化处理;
在算法的初始化阶段,由KFCM算法迭代计算五次得到相应的初始聚类中心和初始隶属度矩阵,由数据集中包含缺失项的某列特征计算已知项平均值作为初始缺失值;
第二步,采用核模糊C均值聚类算法(KFCM)对预处理后数据集聚类,并采用凸差(DC)方法对KFCM目标函数进行非凸规划优化,使最优解尽可能跳出局部极值点的吸引域;
先对聚类中心和隶属度的可行域分别进行凸化,将可行域扩展为相应的凸集;再对KFCM目标函数进行DC分解,将非凸目标函数变为两个凸函数之差的形式;然后利用DCA算法优化DC规划,以凸函数与一阶线性函数之和的近似形式逼近凸差化的目标函数,根据对偶理论探讨原问题和对偶问题的关系,微分并投影求得聚类算法的聚类中心和隶属度矩阵;
第三步,求得聚类中心和数据隶属度后,将缺失数据项统一看作变量,记录缺失项的行标号和列标号,利用拉格朗日乘子法和KKT条件求取最优值,即对缺失项求目标函数的导数并令其为零,可求得其最优值,再以最优的估计值更新缺失数据项;
第四步,判断本次所有缺失数据优化解与上一次缺失优化解的差是否小于给定阈值,迭代更新第二、三步直至满足收敛条件;
对数据集中所有缺失数据项更新完成后,通过比较本次与上一次结果的误差判断算法是否收敛;若满足算法收敛条件,即误差小于给定阈值,当前更新结果为算法执行的最终结果;否则,更新缺失数据项为当前求得的最优值,重新进行迭代求解过程。
2.根据权利要求1所述的基于DC规划处理缺失数据的聚类方法,其特征在于,在上述第一步中以KFCM算法初始化聚类中心和隶属度矩阵,以缺失特征的平均值初始化缺失项数据,减少了后续算法的迭代过程,加快了算法的运行速度。
3.根据权利要求1所述的基于DC规划处理缺失数据的聚类方法,其特征在于,在上述第二步中KFCM算法的目标函数为:
分别对聚类中心和隶属度的可行域空间进行凸化,扩展得到其相应的凸集合。再对KFCM算法的目标函数进行DC分解:
Jm(T,V)=G(T,V)-H(T,V)
其中,函数G和H在凸可行域中均为凸函数。
采用DCA来优化上述最值问题,将问题转化为凸函数与一阶线性函数之和的形式,分别求聚类中心和隶属度的次微分并分别投影到各自的可行域空间中,得到本次迭代中聚类的聚类中心和隶属度矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610216242.3/1.html,转载请声明来源钻瓜专利网。





