[发明专利]一种基于自适应加权Bagging-GBDT的不平衡数据分类方法在审

申请号：	201810876006.3	申请日：	2018-08-03
公开（公告）号：	CN109086412A	公开（公告）日：	2018-12-25
发明（设计）人：	高欣;何杨;李新鹏;阎博;井潇;李军良;徐建航	申请（专利权）人：	北京邮电大学;国网冀北电力有限公司;北京科东电力控制系统有限责任公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自适应加权分类模型样本数据分类综合指标分类问题数据样本投票方式样本类别样本子集样本组合有效解决正负样本测试点欠采样子分类子模型自适应采样分层邻域权重算法子集加权预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自适应加权Bagging-GBDT的不平衡数据分类方法，其特征在于，所述方法步骤包括：

(1)根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样；

(2)将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型；

(3)根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型。

2.根据权利要求1所述的方法，其特征在于，根据k-means算法将多数类样本聚成多个簇，对每个簇样本进行多次分层欠采样，具体说明如下：假定数据集中正负样本的不平衡比率为Ratio，设定聚类中心点个数k为{Ratio,3,5,10}中的某个值，训练集少数类样本总数为num，根据k-means算法将多数类训练样本聚成k簇，对每个簇根据其包含的样本总数进行分层抽样且满足抽样总数等于num，重复不放回抽样T次。

3.根据权利要求1所述的方法，其特征在于，将每次采样后的多数类样本与全部少数类样本组合得到多个样本子集，根据这些子集训练多个预测精度较高的GBDT子分类模型，具体说明为：通过组合采样后的多数类样本与全部少数类训练样本得到T份训练集，假定表示第t份训练子集，其中，t＝1:T，(x_i,y_i)表示该子集中的第i个样本，x_i为样本输入特征，y_i为样本真实类别，y_i∈(0,1)，N为训练集样本总数，初始化对应的子模型h₀(x)，如下所示：

其中，argm_cin表示当h₀(x)为最小时，叶结点输出值c的取值，L(y_i,c)表示样本i对应的损失函数，当迭代次数为m时，对中所有的训练样本(x_i,y_i)计算负梯度r_mi：

其中，m＝1:M，M为总迭代次数，δ表示求偏导，h_m-1(x_i)表示样本i在第m-1次迭代对应子模型上的预测值，根据(x_i,r_mi)拟合第m棵子树，得到该树的叶结点区R_mj，其中，j＝1,2,...,J，j代表第j个叶节点，J为叶节点总数，对j＝1,2,...,J，计算最优拟合值c_mj：

c_mj代表第m棵子树中第j个叶节点输出值，更新子模型h_m(x)：

其中，I为指示函数，若样本属于叶节点R_mj则I取值1，不属于则I为0，重复迭代，直到m＝M，得到最终子模型h_M(x)。

4.根据权利要求1所述的方法，其特征在于，根据测试点邻域样本类别自适应地确定各子模型权重，据此通过加权硬投票方式集成最终的分类模型，具体说明为：当测试样本x_te进入分类模型时，计算欧氏距离dist：

其中，b代表样本特征总数，x_tea与x_tra分别为测试点与训练集内某一样本点在属性a上的取值，统计在训练样本集内最近n个邻居点少数类样本的数目count，计算少数类权重系数w₊＝count×1/n+1，多数类权重系数w_-默认设置为1；分别通过各个子分类模型进行测试得到预测样本类别；根据加权投票法得到最终的分类模型H(x)：

其中，w∈(w₊,w_-)，表示H(x)取最大值时测试样本对应的预测类别，h_t(x)表示第t个子模型，据此得出测试样本的实际预测类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学;国网冀北电力有限公司;北京科东电力控制系统有限责任公司，未经北京邮电大学;国网冀北电力有限公司;北京科东电力控制系统有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810876006.3/1.html，转载请声明来源钻瓜专利网。

上一篇：用于显示信息的方法及装置
下一篇：用于搜索区块链数据的方法、设备及可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于自适应加权Bagging-GBDT的不平衡数据分类方法在审

专利文献下载