首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于聚类的自适应加权过采样方法在审

申请号：	202110650447.3	申请日：	2021-06-11
公开（公告）号：	CN113378927A	公开（公告）日：	2021-09-10
发明（设计）人：	张爽;何云斌;杨海波	申请（专利权）人：	哈尔滨理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自适应加权采样方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于聚类的自适应加权过采样方法，其特征在于，包括以下步骤：

步骤1：对不平衡数据集作为输入，区分出少数类样本和多数类样本，计算需要生成的样本个数；

步骤2：利用k-means聚类算法将少数类数据划分为多个簇，并与多数类数据结合成多个数据集；

步骤3：对于每个数据集通过随机森林算法，并采用5折交叉验证的方式计算对应的得分值，并确定该簇的评分；

步骤4：通过各个簇的评分，计算采样权重，确定簇样本合成个数；

步骤5：针对每个簇根据样本个数，在在簇内进行样本之间随机线性插值。

2.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，所述步骤2中，利用k-means聚类算法将少数类数据划分为多个簇，并与多数类数据结合成多个数据集，具体步骤如下：

步骤2.1 从少数类样本中随机的找到k个数据点作为初始聚类簇心；

步骤2.2 分别计算每个数据点si到所选k个簇心之间的欧氏距离d(si,cj)，找到与每个数据点距离值最小的簇心并分配到该簇中；

步骤2.3 分别计算各个类簇中的数据点的平均值，并将其设置为下一次迭代的聚类中心；

步骤2.4 循环迭代步骤2.2～步骤2.3，直到满足最大迭代次数，或各个簇心不再发生较大变化；

步骤2.5 将步骤2.4得到的k个簇，分别与多数类样本结合成k个数据集。

3.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，所述步骤3中，对于每个数据集通过随机森林算法，并采用5折交叉验证的方式计算对应的得分值，并确定该簇的评分，具体步骤为：

步骤3.1 对于每一个步骤2中得到的数据集，根据5折交叉验证的方式，划分为k组数据集；

步骤3.2 每次选择其中1组作为测试集，4组作为训练集，使用训练集训练随机森林算法，根据训练得到的模型预测测试集结果，并根据结果得到其对应的AUC、F-measure、G-mean值，并计算对应的平均值；

步骤3.3 循环5次步骤3.2，得到k个值并计算平均值，作为该簇对应的得分值。

4.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，所述步骤4中，通过各个簇的评分，计算采样权重，确定簇样本合成个数，具体步骤为：

步骤4.1 对于各个簇均用1与该簇的评分值做差值作为其采样得分，并计算采样得分值的总和；

步骤4.2 根据簇对应的采样得分值与总和作比，作为该簇的采样权重值；

步骤4.3 原始数据多数类样本点与少数类样本点的差值乘上簇的采样权重值，即为簇的合成样本个数。

5.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，在所述步骤5中，针对每个簇根据样本个数，在簇内进行样本之间随机线性插值，具体过程为：

步骤5.1 随机选择簇内的两个样本点，在两者之间通过随机插值的方式合成新的样本点；

步骤5.2 重复步骤5.1，直至新的样本点个数等于簇的合成样本个数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学，未经哈尔滨理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110650447.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种绝缘材料、电缆及其连续制备方法和应用
下一篇：一种环保工程用人工草皮碎屑清洁设备

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top