[发明专利]欺诈用户识别方法及系统在审
申请号: | 201910376647.7 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110113757A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 赵慧;王晓霞;魏进武 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | H04W12/12 | 分类号: | H04W12/12;H04W12/00;G06F16/215;G06K9/62 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 彭瑞欣;张天舒 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 欺诈 标签 用户识别 训练样本集 迭代运算 均值向量 用户群 种类数 均值聚类算法 数据建立 终止条件 筛选 | ||
本发明提供一种欺诈用户识别方法及系统,该方法包括:从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;基于所述含有欺诈标签用户的数据建立训练样本集;基于所述训练样本集计算出均值向量;计算所述欺诈标签的种类数,将所述种类数作为用户群数;将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。通过本发明,提高了欺诈用户识别的可靠性以及准确性。
技术领域
本发明涉及通信技术领域,具体地,涉及一种欺诈用户识别方法及系统。
背景技术
由于运营商计费规则存在漏洞,有些消费者借此实现无限流量上网,而此群体呈现扩大趋势,所需要支付的成本远远低于最低价的4G套餐,甚至出现免费的状况。
现有技术中一般通过均值聚类算法对客户使用手机流量的情况进行群体细分,了解他们不同的手机消费习惯,识别免流量欺诈用户。但是,由于现有的用户使用手机流量的数据是带有部分标签的,并且现有的均值算法是一种无监督的算法,其具有以下缺陷:1、无法充分使得带标签的数据发挥最大价值;2、簇数的选择没有科学指导,只能随机尝试;3、现有随机选取的簇数个均值向量对最终结果影响很大,准确率难以保证。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种欺诈用户识别方法及系统。
为实现本发明的目的而提供一种欺诈用户识别方法,所述方法包括:
从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户;
基于所述含有欺诈标签用户的数据建立训练样本集;
基于所述训练样本集计算出均值向量;
计算所述欺诈标签的种类数,将所述种类数作为用户群数;
将所述全量用户的数据、所述用户群数以及所述均值向量带入均值聚类算法模型进行迭代运算,以在所述迭代运算满足终止条件停止后,得到所述全量用户所在的簇;
由所述全量用户所在的簇,确定所述无欺诈标签用户所在的簇。
优选地,在所述从全量用户中筛选出无欺诈标签用户以及含有欺诈标签用户的步骤之前,还包括:
获取全量用户的数据,对所述全量用户的数据进行清洗以及预处理。
优选地,所述对所述全量用户的数据进行清洗包括:
将所述全量用户的数据进行可视化处理;
基于所述可视化处理结果删除数据缺失超过设定值的用户;
基于数据缺失比例二次筛选所述全量用户的数据。
优选地,所述对所述全量用户的数据进行预处理包括:
对所述全量用户的数据中的连续数据进行中心化和标准化的处理;
对所述全量用户的数据中的离散型数据进行独热编码;
对所述全量用户的数据中的缺失的连续数据使用中位数填充;
对所述全量用户的数据中的缺失的离散型数据使用众数填充。
优选地,所述终止条件包括以下任意一种:
每个簇的均值向量均不再变化;
没有数据被重新分配给不同的簇;
簇的误差平方和局部最小。
优选地,所述全量用户的数据包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910376647.7/2.html,转载请声明来源钻瓜专利网。