[发明专利]欺诈用户识别方法及系统在审
申请号: | 201910376647.7 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110113757A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 赵慧;王晓霞;魏进武 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | H04W12/12 | 分类号: | H04W12/12;H04W12/00;G06F16/215;G06K9/62 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;张天舒 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 欺诈 标签 用户识别 训练样本集 迭代运算 均值向量 用户群 种类数 均值聚类算法 数据建立 终止条件 筛选 | ||
1.一种欺诈用户识别方法,其特征在于,所述方法包括:
从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;
基于所述含有欺诈标签用户的数据建立训练样本集;
基于所述训练样本集计算出均值向量;
计算所述欺诈标签的种类数,将所述种类数作为用户群数;
将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
2.根据权利要求1所述的欺诈用户识别方法,其特征在于,在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前,还包括:
获取全量用户的数据,对所述全量用户的数据进行清洗以及预处理。
3.根据权利要求2所述的欺诈用户识别方法,其特征在于,所述对所述全量用户的数据进行清洗包括:
将所述全量用户的数据进行可视化处理;
基于所述可视化处理结果删除数据缺失超过设定值的用户;
基于数据缺失比例二次筛选所述全量用户的数据。
4.根据权利要求2所述的欺诈用户识别方法,其特征在于,所述对所述全量用户的数据进行预处理包括:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
5.根据权利要求1-4任一项所述的欺诈用户识别方法,其特征在于,所述终止条件包括以下任意一种:
每个簇的均值向量均不再变化;
没有数据被重新分配给不同的簇;
簇的误差平方和局部最小。
6.根据权利要求5所述的欺诈用户识别方法,其特征在于,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
7.一种欺诈用户识别系统,其特征在于,包括:
分析模块,用于从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户,基于所述含有欺诈标签用户的数据建立训练样本集;
计算模块,用于基于所述训练样本集计算出均值向量,计算所述欺诈标签的种类数,将所述种类数作为用户群数;
划分模块,用于将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
查询判定模块,用于由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
8.根据权利要求7所述的欺诈用户识别系统,其特征在于,还包括:获取模块,清洗模块以及预处理模块;
所述获取模块用于获取全量用户的数据;
所述清洗模块用于对所述全量用户的数据进行清洗;
所述预处理模块用于对所述全量用户的数据预处理。
9.根据权利要求8所述的欺诈用户识别系统,其特征在于,所述预处理模块按以下方式进行的预处理:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
10.根据权利要求7-9任一项所述的欺诈用户识别系统,其特征在于,所述全量用户的数据包括:
国际漫游流量平均使用量、总流量使用量、平均本地流量使用量、周末本地流量平均使用量、出账金额以及用户欺诈标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910376647.7/1.html,转载请声明来源钻瓜专利网。