[发明专利]基于混淆矩阵对大数据进行分类的方法在审
| 申请号: | 201710486600.7 | 申请日: | 2017-06-23 |
| 公开(公告)号: | CN107392231A | 公开(公告)日: | 2017-11-24 |
| 发明(设计)人: | 甘新标;刘杰;徐涵;胡庆丰;晏益慧;龚春叶;李胜国;邹丹;熊成伟;黄嘉昆 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙)43008 | 代理人: | 谭武艺 |
| 地址: | 410073 *** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 混淆 矩阵 数据 进行 分类 方法 | ||
1.一种基于混淆矩阵对大数据进行分类的方法,其特征在于包括以下步骤:
第一步、对大数据进行数据类别粗分,得到N类数据,具体方法为:依据大数据样本的特征将大数据样本分为N类,将分为N类的大数据用大数据集D来表示,D=[D1,D2,…,Di,…DN],N为D中的类别数目,N为正整数,Di表示D中第i个类别的分类样本的集合,1≤i≤N,dij表示Di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为Di中的样本个数,为正整数;
第二步、统计D中的总样本数TN,方法为:将D中的样本数求和,即:
第三步、构建面向D的分类判定混淆矩阵P,具体方法如下:
3.1.基于监督分类原理,为D1,D2,…,Di,…DN建立数据类别标签tag1,tag2,…,tagi,…tagN,tagi为Di的类别标签;
3.2.对D1,D2,…,Di,…DN中的样本类别进行第二次判定,判定规则为:将每个样本定义为一个二元组dij=<Ki,Rj>,Ki表示Di的关键特征集合,Rj表示Di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有Ki包含的所有关键特征就可以判定数据类别,非关键特征集合是判定样本类别的必要但非充分条件,即样本dij只要属于某种数据类别就可能具有Rj中的特征,但具有该特征并不能立刻判定样本类别,同一类别的样本必须满足下列条件之一:
条件①:两个样本的关键特征集合相同;
条件②:两个样本的关键特征集合相似,并且必要特征集合相同;
其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同;
3.3.统计Di中的样本被标识为tagi'类别的数目,具体方法如下:
3.3.1.定义变量i=1;
3.3.2.定义变量i'=1;
3.3.3.定义变量j=1;
3.3.4.定义变量pii'=0;
3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;
3.3.6.j=j+1;
3.3.7.若j≤mi,转3.3.5,否则,3.3.8;
3.3.8.i'=i'+1;
3.3.9.若i'≤N,转3.3.3,否则,转3.3.10;
3.3.10.i=i+1;
3.3.11.若i≤N,转3.3.2,否则,转3.4;
3.4.构建分类判定混淆矩阵P,如公式(1)所示:
公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目;
第四步、计算面向D的分类精度OA,具体方法如下:
第五步、核算面向D的分类有效精度EA,方法如下:
第六步、输出OA和EA,结束。
2.如权利要求1所述的基于混淆矩阵对大数据进行分类的方法,其特征在于对D1,D2,…,Di,…DN中的样本类别进行第二次判定的具体方法如下:
3.2.1.定义变量i=1;
3.2.2.定义变量j=1;
3.2.3.定义变量i'=1;
3.2.4.定义变量j'=1;
3.2.5.判定样本dij是否与Di'同类,步骤如下:
3.2.5.1.若num(Ki)≠num(Ki'),转3.2.5.8,否则,转3.2.5.2;
3.2.5.2.Ki≠Ki',转3.2.5.3,否则,转3.2.5.7;
3.2.5.3.若Rj≠Rj',转3.2.5.8,否则,转3.2.5.4;
3.2.5.4.令集合变量
3.2.5.5.Tmp=Ki∩Ki';
3.2.5.6.若集合Ki与Ki'相似,满足条件②,转3.2.5.7,否则,转3.2.5.8;所述num(X)表示集合X的元素个数;
3.2.5.7.给样本dij贴上标签tagi';
3.2.5.8.i'=i'+1;
3.2.5.9.若i'≤N,转3.2.5;否则,转3.2.5.10;
3.2.5.10.j=j+1;
3.2.5.11.若j≤mi,转3.2.3,否则,转3.2.5.12;
3.2.5.12.i=i+1;
3.2.5.13.若i≤N,转3.2.2,否则,第二次判定结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710486600.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





