[发明专利]一种基于改进的主动学习技术的电信欺诈分类检测方法有效

专利信息
申请号: 201811301410.4 申请日: 2018-11-02
公开(公告)号: CN109492026B 公开(公告)日: 2021-11-09
发明(设计)人: 万辛;刘冠男;郭佳;林浩;安茂波;李鹏;高圣翔;黄远;沈亮 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/2458 分类号: G06F16/2458;G06Q50/30
代理公司: 北京永创新实专利事务所 11121 代理人: 冀学军
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 主动 学习 技术 电信 欺诈 分类 检测 方法
【说明书】:

发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。

技术领域

本发明属于数据挖掘与机器学习和商务智能等领域,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。

背景技术

在实际应用中,不同类别的数据在数量上可能会有很大的差异。例如,在电信欺诈检测领域,大多数通话记录来自正常用户,只有一小部分通话记录来自欺诈者。然而,即使欺诈电话的数量较少,也会给公共通信资源和个人财产带来巨大损失。根据美国通信欺诈控制协会(CFCA)发布了一份关于2015年全球电信诈骗损失的调查报告,其中显示全球电信欺诈损失预计年均将近400亿美元,约占电信总收入的2%。

近年来,电信欺诈检测引起了许多工业界和学术界研究人员的极大兴趣,这不仅因为其潜在的巨大经济损失,而且还因异常的特征和行为模式难以捕捉。

目前,有监督和无监督学习技术已被应用于这个问题。但是,大多数经典学习算法都假设数据类的分布是平衡的。因此,当这些算法应用于非常不平衡的数据集时,它们通常无法达到预期的效果。

在这种情况下,如何有效地选择训练样本以取得良好的效果被视为一项至关重要的任务。主动学习(Active Learning)是一组特殊的机器学习方法,旨在通过从未标记的数据集中主动选择训练样本来提高学习性能。在主动学习中,在信息最丰富的样本上递增和迭代训练的学习算法通常会导致更高的准确性,并且优于随机选择训练样本的传统算法。

发明内容

本发明考虑到传统机器学习方法在数据类别不平衡情况下的分类难度和挑战,同时鉴于样本量较大,正类样本也较少的特点,提出了一种基于改进的主动学习技术的电信欺诈分类检测方法。

具体步骤如下:

步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集。

训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;

步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本。

人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本。

未标记样本数量为A%*(1-B%)*X

步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入。

处理转换包括:特征归一化、连续数值离散化、指数/log变换、独热编码等;

步骤四、初始化主动学习算法的迭代参数;

包括:设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1

步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;

当前训练集初始值选用初始训练集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811301410.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top