[发明专利]基于聚类和匈牙利算法的数据分类方法有效
| 申请号: | 201310220527.0 | 申请日: | 2013-06-05 | 
| 公开(公告)号: | CN104216920B | 公开(公告)日: | 2017-11-21 | 
| 发明(设计)人: | 胡勇 | 申请(专利权)人: | 北京齐尔布莱特科技有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京市盛峰律师事务所11337 | 代理人: | 赵建刚 | 
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 匈牙利 算法 数据 分类 方法 | ||
1.一种基于聚类和匈牙利算法的数据分类方法,其特征在于,包括以下步骤:
S1,读取原始样本集{X1、X2…XN};
原始样本集{X1、X2…XN}包括已知分类样本子集{X1、X2…Xn}和未知分类样本子集{Xn+1、Xn+2…XN};其中,已知分类样本子集{X1、X2…Xn}中各个样本所属类别Yi分别为Y1、Y2…Yn;已知分类样本子集中已知类别个数为L;
未知分类样本子集{Xn+1、Xn+2…XN}中未知类别个数为C;
S2,将原始样本集{X1、X2…XN}中所有样本视为无分类样本,对原始样本集中的所有样本采用聚类方法进行首次聚类,得到L+C个类别;
S3,将L个已知类别通过匈牙利算法指派到L+C个类别中的L个类别,将首次聚类得到的类别与已知类别对应上;
S4,将已知分类样本子集{X1、X2…Xn}中各个样本划分到其归属的类中,然后保持已知分类样本子集{X1、X2…Xn}中各个样本所属类不变,再次聚类,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音;
S2中,所述聚类方法为KMeans聚类方法或分层聚类方法;
S4中,再次聚类时所采用的聚类方法为KMeans聚类方法或分层聚类方法;
S4中,使用目标函数迭代未标注的样本,使未标注的样本分到某个类别或视为背景噪音,具体为:
使用目标函数迭代未标注的样本,通过目标函数是否达到极值识别背景噪音;当本次迭代结果与上次迭代结果不再发生变化时,或目标函数不再发生变化时,结束分类;
所述目标函数设定为:类间分散度*类内聚合度*识别率;
所述类间分散度用间平均距离、类间均方距离、类间最小距离或类间最大距离表示;
可设为:(不同类间样本的平均距离)/(所有有分类的样本间平均距离)=(所有有分类的样本的总距离-各类内的样本间的总距离)/(所有有分类的样本总距离)*所有有分类的样本数*(所有有分类的样本数-1)/∑(某分类的样本数*(某分类的样本数-1));
所有有分类的样本间平均距离是指:对Yi>0且Yj>0的所有i,j,求dij的平均值;
所有有分类的样本总距离是指:对Yi>0且Yj>0的所有i,j,求dij的总和;
所有有分类的样本数是指:对Yi>0所有i的个数;
各类内的样本间的总距离是指:对Yi>0,Yj>0且Yi=Yj的所有i,j,求dij的总和;
不同类间样本的平均距离是指:对Yi>0,Yj>0且Yi≠Yj的所有i,j,求dij的平均值;
所述类内聚合度用类内平均距离、类内均方距离或类内最大距离表示;
所述识别率表达式为:类别个数/总样本个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310220527.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水箱上横梁的安装结构及其安装、复装方法
- 下一篇:免耕施肥施药穴播机
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





