[发明专利]一种改进的过采样SMOTE算法在审
| 申请号: | 201910581817.5 | 申请日: | 2019-06-30 |
| 公开(公告)号: | CN110309202A | 公开(公告)日: | 2019-10-08 |
| 发明(设计)人: | 高中文;王天健 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06Q40/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 信用卡欺诈 过采样 算法 信用卡 信用卡数据 训练集样本 交易数据 聚类中心 算法技术 算法生成 样本边界 样本数据 正常交易 重叠问题 中心点 聚类 式中 改进 交易 保证 | ||
本发明公开了一种改进的过采样SMOTE算法,涉及SMOTE算法技术领域;它的步骤如下:将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:QUOTE 式中,N为信用卡训练集样本数据,样本个数为QUOTE ,QUOTE 为信用卡正常交易数据,样本个数为QUOTE ,QUOTE 为信用卡欺诈交易数据QUOTE ;本发明采用K均值(K‑means)聚类和SMOTE算法生成新的数据,可以保证样本边界信息,克服样本重叠问题。
技术领域
本发明属于SMOTE算法技术领域,具体涉及一种改进的过采样SMOTE算法。
背景技术
信用卡数据集是一个不平衡数据集,信用卡被盗刷交易占总体的比例通常不足1%,样本不平衡影响分类器的学习能力,使分类器向多样本数据倾斜,SMOTE算法是一种过采样增加样本数据的方法,可以有效的扩大其中少量样本的规模使样本数据达到平衡状态,但不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题。
发明内容
为解决现有不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题;本发明的目的在于提供一种改进的过采样SMOTE算法。
本发明的一种改进的过采样SMOTE算法,它的步骤如下:
将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:
式中,N为信用卡训练集样本数据,样本个数为 QUOTE , QUOTE 为信用卡正常交易数据,样本个数为 QUOTE , QUOTE 为信用卡欺诈交易数据 QUOTE;
式中, QUOTE 为欺诈数据第i个类,该类样本数量为 QUOTE ,样本 QUOTE ( QUOTE )到所属类的距离为 QUOTE 且使 QUOTE , QUOTE为欺诈样本中不属于任何类的孤立点,样本数量为 QUOTE ;
期望训练集中欺诈数据占正常数据的 QUOTE ,则欺诈样本第i个类需要添加数据样本为:
SMOTE算法合成新的人工数据,对于某个样本 QUOTE ,首先找到距离其最近的M个最邻近样本,从M个最邻近样本中有放回随机选择 QUOTE 个样本,记为QUOTE ;
式中, QUOTE , QUOTE 为 QUOTE 的M个邻域中距离 QUOTE 类中心最远的距离, QUOTE 为 QUOTE 中下标的数值, QUOTE 为已新生成的距离 QUOTE 类中心距离小于 QUOTE的样本个数。 QUOTE 为正整数A向上取整;
对于每一个 QUOTE ,按如下公式生成新的样本;
式中, QUOTE 为0-1之间测随机数。
与现有技术相比,本发明的有益效果为:
一、采用K均值(K-means)聚类和SMOTE算法生成新的数据,可以保证样本边界信息,克服样本重叠问题;
二、同时计算快速且简便。
具体实施方式
本具体实施方式采用以下技术方案:它的步骤如下:
将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910581817.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:作业定制方法及系统
- 下一篇:一种基于大数据的交互式和自定义数据建模系统





