[发明专利]在不平衡数据上快速特征学习的代价敏感的动态聚类方法有效
| 申请号: | 201911309071.9 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111178897B | 公开(公告)日: | 2023-08-08 |
| 发明(设计)人: | 宋明黎;郑铜亚 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06Q20/40 | 分类号: | G06Q20/40;G06V10/764;G06V10/70 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 不平衡 数据 快速 特征 学习 代价 敏感 动态 方法 | ||
在不平衡数据集上进行快速特征学习的代价敏感的动态聚类方法,首先将不平衡数据的训练集全体送入前馈神经网络中,得到输出层之前的样本表征;设定聚类的类别数目K,将属于数据集大类的样本表征取出,用K‑Means方法将这批样本聚为K类;利用得到的这批样本的聚类标签作为训练的类别标签,计算代价敏感系数下的神经网络损失,利用反向传播训练神经网络;迭代计算下一批样本表征,并设置K‑Means的初始化标签为上一轮大类样本的K‑Means标签,继续训练过程直到收敛。能够较好地解决不平衡数据集训练中出现的模型偏置情况,在大类和小类的分类结果上均表现良好,用于金融数据中不平衡数据的分类学习。
技术领域
本发明属于金融交易风险控制领域,针对金融交易风险控制中欺诈案例相比正常案例非常稀少导致的不平衡机器学习等问题,提出了在不平衡数据上一种快速特征学习的代价敏感的动态聚类方法。
背景技术
随着传统金融互联网化以及互联网金融的快速发展,网络黑色产业链以集团化、产业化的趋势迅速发展。为抵御黑色产业链的盗卡、伪卡、薅羊毛、套现、非法集资等行为,金融行业结合大数据平台和业务人员的专家经验,构建金融业务中央风控系统。然而,黑色产业链攻击多变、拥有大量的代理IP、虚拟号码,基于规则的风控系统不能灵活地防御攻击行为。因此,研究基于机器学习的智能风控系统是十分必要的。
在智能风控系统中,一个核心的部分是基于监督学习的二分类问题,即根据每一笔交易行为的若干维特征,判断该笔交易是否欺诈。然而,实际中的欺诈行为仅为正常交易行为的千分之一甚至万分之一,数据集存在严重的不平衡,影响了机器学习的效果,导致系统判断欺诈行为的准确率和召回率偏低。针对数据集不平衡的问题,很多研究者提出了不同的不平衡学习算法,众多的不平衡学习算法根据处理方式不同划分为不同的类别。
在二分类的不平衡学习研究中,提出在输入端解决数据集不平衡问题的是基于采样的方法。基于采样的方法又可以分为针对小类样本的过采样方法和针对大类样本的下采样方法。基于采样的方法优点是操作简单,时间复杂度小,并且因为采样与模型无关,可以和各种模型集成使用。该方法的局限性在于,过采样方法使得模型容易对小类样本过拟合,泛化能力差;下采样方法会引入随机噪声,使得模型训练不鲁棒,损失训练集中的信息。
在二分类的不平衡学习研究中,提出在损失函数端解决数据集不平衡问题的是代价敏感方法。代价敏感方法对误分类的损失施加不同的权重,通常对小类样本分类损失施加较大的权重,而对大类样本损失施加较小的权重,从而解决模型训练时小类的损失过小导致学习不充分的问题。代价敏感方法的缺点在于需要一个难以定义的代价矩阵,对不同的损失指定不同的系数。
在二分类的不平衡学习研究中,还有一类方法,提出在特征空间为样本学习更好的数据表征。基于数据表征的方法通常采用样本对的方式训练表征,使得同类别表征相近,不同类别表征相离,该方法的效果较好,性能鲁棒。但是,该方法的时间复杂度通常是样本数量N的平方,训练比较困难。
发明内容
本发明要克服现有技术的不足,在减少时间复杂度的情况下,提供一种代价敏感的动态聚类方法,可以实现在不平衡数据上的快速特征学习。
在不平衡数据上进行快速特征学习的代价敏感的动态聚类方法,包括下列步骤:
1)设定基准的前馈神经网络;
准备好二分类的不平衡数据集,训练集样本有N个,每个样本的特征维度是d维。构建基准的前馈神经网络,包含三层:输入层、隐藏层和输出层,每一层的神经元个数分别为d、2d和1。神经网络中间的参数分别记为W0和W1,隐藏层采用的激活函数为RELU,形式为f(x)=max(x,0),输出层采用Sigmoid函数,形式为f(x)=1/1+e-x。记输入的样本特征为x,隐藏层的表达为h,则h=RELU(W0*x),输出层的表达为o,则o=Sigmoid(W1*h)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911309071.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





