[发明专利]一种基于改进的主动学习技术的电信欺诈分类检测方法有效
申请号: | 201811301410.4 | 申请日: | 2018-11-02 |
公开(公告)号: | CN109492026B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 万辛;刘冠男;郭佳;林浩;安茂波;李鹏;高圣翔;黄远;沈亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q50/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 主动 学习 技术 电信 欺诈 分类 检测 方法 | ||
1.一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,具体步骤如下:
步骤一、收集电信网中某段时间内的呼叫详细数据,随机等概率抽取数量为X的数据作为样本,并划分训练集和测试集;
训练集样本比例为A%,则训练集的样本总量为A%*X;测试集的样本总量为(1-A%)*X;
步骤二、从训练集中随机等概率抽取B%的样本进行人工标记,并将所有标记样本视为初始训练集,其余训练集样本视为未标记样本;
步骤三、对初始训练集样本、未标记样本以及测试集样本分别进行数据清洗,并根据实际需要对每个样本均提取M维数据特征进行处理转换,用于后续机器学习模型输入;
步骤四、初始化主动学习算法的迭代参数;
步骤五、判断当前训练集中正类样本数量与负类样本数量的比值是否小于阈值e,如果是,则采用重采样技术SMOTE对样本进行调整,并返回步骤二;否则进入步骤六;
当前训练集初始值选用初始训练集;
步骤六、根据当前训练集中每个样本提取的数据特征,训练用于欺诈检测的有监督分类器f,以及构造用于问询样本可信类别概率的强组合分类器F;
强组合分类器F的投票结果作为样本的潜在类别分布;
步骤七、将未标记数据样本逐个放入训练好的有监督分类器f中进行类别评分;
步骤八、将每个未标记样本的类别评分结果,分别输入主动学习采样算法,结合该样本被分错的概率和样本信息量大小,得到每个未标记样本关于其信息量大小的评分;
第j个未标记样本的评分MISj,具体计算公式如下:
x*表示的是当前未标记样本集合中信息量最大的数据样本集合,Pθ(yi|xj)表示强组合分类器F中的一个假设所预测的实例xj的类概率,Pes(yi|xj)表示强组合分类器F最终预测的xj的类概率大小,N代表强组合分类器F中的分类器个数;θ∈Θ代表一个假设所使用的参数集合,I(xj)是用来测量一个样本是否满足信息熵最大的指示器函数,取值为1或0;P(yi|xj)由用于欺诈检测的有监督分类器f预测的xj的类概率分布;
如果第j个未标记样本根据公式获得分数等于x*,则I(xj)值为1,否则为0;MISj反映了第j个未标记样本被误分情况以及信息量大小的综合研判;
步骤九、将所有评分值由大至小排序,选取信息量最大的前D个未标记样本进行标注,并加入训练集中;
步骤十、判断当前训练集样本数量是否大于等于X1,或者迭代次数是否大于等于C,如果是,则主动学习采样算法停止,输出分类器f,进入步骤十一;否则,未标记样本数量减少D个样本,迭代次数增计一次,返回步骤五;
设置最大迭代步数C、每次迭代步长D以及训练集最大样本数量X1;
步骤十一、使用训练好的分类器f在测试集上进行分类效果测试,对电信欺诈的呼叫数据进行分类。
2.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤二中所述的人工标记的样本数量为A%*B%*X;包括:被标记为诈骗的电话记录,视为正类样本;被标记为正常电话记录,视为负类样本;
未标记样本数量为A%*(1-B%)*X。
3.如权利要求1所述的一种基于改进的主动学习技术的电信欺诈分类检测方法,其特征在于,步骤三所述的处理转换包括:特征归一化、连续数值离散化、指数/log变换和独热编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811301410.4/1.html,转载请声明来源钻瓜专利网。