[发明专利]基于混淆矩阵对大数据进行分类的方法在审

专利信息
申请号: 201710486600.7 申请日: 2017-06-23
公开(公告)号: CN107392231A 公开(公告)日: 2017-11-24
发明(设计)人: 甘新标;刘杰;徐涵;胡庆丰;晏益慧;龚春叶;李胜国;邹丹;熊成伟;黄嘉昆 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/16
代理公司: 湖南兆弘专利事务所(普通合伙)43008 代理人: 谭武艺
地址: 410073 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 混淆 矩阵 数据 进行 分类 方法
【权利要求书】:

1.一种基于混淆矩阵对大数据进行分类的方法,其特征在于包括以下步骤:

第一步、对大数据进行数据类别粗分,得到N类数据,具体方法为:依据大数据样本的特征将大数据样本分为N类,将分为N类的大数据用大数据集D来表示,D=[D1,D2,…,Di,…DN],N为D中的类别数目,N为正整数,Di表示D中第i个类别的分类样本的集合,1≤i≤N,dij表示Di中第j个样本,并且每个类别的第一个样本di1为标本,即第一个样本的分类经确认与真实类别一致,1≤j≤mi,mi为Di中的样本个数,为正整数;

第二步、统计D中的总样本数TN,方法为:将D中的样本数求和,即:

第三步、构建面向D的分类判定混淆矩阵P,具体方法如下:

3.1.基于监督分类原理,为D1,D2,…,Di,…DN建立数据类别标签tag1,tag2,…,tagi,…tagN,tagi为Di的类别标签;

3.2.对D1,D2,…,Di,…DN中的样本类别进行第二次判定,判定规则为:将每个样本定义为一个二元组dij=<Ki,Rj>,Ki表示Di的关键特征集合,Rj表示Di中样本dij的非关键特征集合;关键特征集合是判定样本类别的充分条件,即样本dij只要具有Ki包含的所有关键特征就可以判定数据类别,非关键特征集合是判定样本类别的必要但非充分条件,即样本dij只要属于某种数据类别就可能具有Rj中的特征,但具有该特征并不能立刻判定样本类别,同一类别的样本必须满足下列条件之一:

条件①:两个样本的关键特征集合相同;

条件②:两个样本的关键特征集合相似,并且必要特征集合相同;

其中,集合相同表示两个集合包含的元素个数相同并且每一个元素也相同;集合相似表示两个集合包含的元素个数相同并且60%以上的元素相同;

3.3.统计Di中的样本被标识为tagi'类别的数目,具体方法如下:

3.3.1.定义变量i=1;

3.3.2.定义变量i'=1;

3.3.3.定义变量j=1;

3.3.4.定义变量pii'=0;

3.3.5.若样本dij被标识为标签tagi',pii'=pii'+1,否则,转3.3.6;

3.3.6.j=j+1;

3.3.7.若j≤mi,转3.3.5,否则,3.3.8;

3.3.8.i'=i'+1;

3.3.9.若i'≤N,转3.3.3,否则,转3.3.10;

3.3.10.i=i+1;

3.3.11.若i≤N,转3.3.2,否则,转3.4;

3.4.构建分类判定混淆矩阵P,如公式(1)所示:

P=p11p12......p1Np21p22......p2N............pi1...pii...pii...piN.........pN1pN2......pNN----(1)]]>

公式(1)中,pii'表示测试样本实际属于i类而被判定为i'类的样本个数,pii为第i类别被正确分类的样本数目;

第四步、计算面向D的分类精度OA,具体方法如下:

OA=Σi=1NpiiTN---(2)]]>

第五步、核算面向D的分类有效精度EA,方法如下:

EA=Σi=1NpiiΣi=1NΣj=1mipij---(3)]]>

第六步、输出OA和EA,结束。

2.如权利要求1所述的基于混淆矩阵对大数据进行分类的方法,其特征在于对D1,D2,…,Di,…DN中的样本类别进行第二次判定的具体方法如下:

3.2.1.定义变量i=1;

3.2.2.定义变量j=1;

3.2.3.定义变量i'=1;

3.2.4.定义变量j'=1;

3.2.5.判定样本dij是否与Di'同类,步骤如下:

3.2.5.1.若num(Ki)≠num(Ki'),转3.2.5.8,否则,转3.2.5.2;

3.2.5.2.Ki≠Ki',转3.2.5.3,否则,转3.2.5.7;

3.2.5.3.若Rj≠Rj',转3.2.5.8,否则,转3.2.5.4;

3.2.5.4.令集合变量

3.2.5.5.Tmp=Ki∩Ki'

3.2.5.6.若集合Ki与Ki'相似,满足条件②,转3.2.5.7,否则,转3.2.5.8;所述num(X)表示集合X的元素个数;

3.2.5.7.给样本dij贴上标签tagi'

3.2.5.8.i'=i'+1;

3.2.5.9.若i'≤N,转3.2.5;否则,转3.2.5.10;

3.2.5.10.j=j+1;

3.2.5.11.若j≤mi,转3.2.3,否则,转3.2.5.12;

3.2.5.12.i=i+1;

3.2.5.13.若i≤N,转3.2.2,否则,第二次判定结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710486600.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top