[发明专利]一种基于自适应平衡集成与动态分层决策的多分类方法在审

专利信息
申请号: 201811599644.1 申请日: 2018-12-26
公开(公告)号: CN109359704A 公开(公告)日: 2019-02-19
发明(设计)人: 高欣;何杨;井潇;刁新平;任昺;纪维佳 申请(专利权)人: 北京邮电大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 二分类 一对多 样本 自适应平衡 动态分层 数据集 子模型 原始数据集 参数区间 测试样本 分类模型 技术平衡 决策空间 类别判定 评分标准 输出结果 数据集中 网格搜索 整体识别 正常区域 采样数 过采样 交叉区 空白区 平均法 欠采样 上下限 分类 准确率 子集 决策 分解 转化 制定
【权利要求书】:

1.一种基于自适应平衡集成与动态分层决策的多分类方法,其特征在于,所述方法步骤包括:

(1)根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;

(2)据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;

(3)根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。

2.根据权利要求1所述的方法,其特征在于,根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数,具体说明如下:假定数据集D的类别总数为m,根据一对多分解策略将原始数据集D转化为m个二类数据集Di,其中,i=1,2,...,m,每个二类数据集中正类对应某一类别,负类对应剩余所有类别;根据网格搜索法分别对每个Di在{count(less),count(more)}内进行采样数目搜索,其中count(more)为多数类训练样本总数、count(less)为少数类训练样本总数,具体地将每个Di随机划分为五折,每四折作为训练集Dtr={lesstr,moretr},lesstr为少数类训练样本,moretr为多数类训练样本,每一折作为测试集,设定间距d,其中,0<d<count(moretr),从参数区间{count(lesstr),count(moretr)}内等间距确定采样数目num,据此平衡每四折对应的样本数据以建立多个分类模型,其中,count(moretr)为moretr中样本总数、count(lesstr)为lesstr中样本总数,利用剩余一折包含的样本对这些分类模型进行测试,保留模型对各个类别的分类准确率ACCi,其中,ACCi表示每个分类模型对第i个类别正确分类的样本数目占该类样本总数的比例,将各类别分类准确率求和取平均值得到平均每类准确率MAva:

然后,以MAva作为评分标准,重复实验多次,将评分值按从大到小顺序排列,挑选出评分值前3名对应采样数目numi1、numi2、numi3,根据转化公式num'=num/count(lesstr)*count(less)得到最终采样数目num′i1、num′i2、num′i3,其中,num为转化前采样数目,num'为转化后采样数目,count(lesstr)为五折中的少数类训练样本总数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811599644.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top