[发明专利]一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质在审

专利信息
申请号: 202110297781.5 申请日: 2021-03-19
公开(公告)号: CN112950231A 公开(公告)日: 2021-06-11
发明(设计)人: 苏如春;孙少峰;练镜锋 申请(专利权)人: 广州瀚信通信科技股份有限公司
主分类号: G06Q30/00 分类号: G06Q30/00;G06K9/62
代理公司: 广州专才专利代理事务所(普通合伙) 44679 代理人: 曾嘉仪
地址: 510310 广东省广州市天河区元岗横路37号4203*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xgboost 算法 异常 用户 识别 方法 设备 计算机 可读 存储 介质
【说明书】:

发明涉及人工智能领域,具体公开了一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质,其实现步骤包括:数据预处理和特征选择:批量获取所需识别的用户数据,通过数据清洗与特征工程进行数据预处理;模型建立:将处理好的特征向量和类别标签作为模型输入的样本集构造成分类模型,计算预测值,然后根据模型计算输出的预测值构造算法的目标函数,迭代得到最优损失函数,从而得到最终分类结果;模型参数调优和模型验证:优化模型参数。本发明通过使用多维度用户数据,对数据的覆盖更全面;选择弱学习器CART算法,提升了运算效率;使模型表现效果加强,泛化能力加强,准确率和识别率均提高,节约了计算资源。

技术领域

本发明涉及人工智能领域,尤其涉及一种基于XGBoost算法的异常用户识别方法、系统及设备。

背景技术

随着大数据时代发展,通信行业运营商之间的竞争也在增大,为吸收更多用户,运营商进行一些营销活动吸引从各种渠道注册的新用户,然而这种营销活动中会存在一些异常注册的用户,办理了手机卡不使用或者养卡、诈骗等风险用户,为识别这些异常用户,运营商利用用户每天都产生的大量数据,例如用户基本信息、上网行为数据、通信消费数据以及位置数据建立算法模型分类识别出异常用户。

目前,通信行业异常用户的识别,主要通过单一属性数据以及单一算法进行检测,数据方面主要是网络数据和移动位置数据;算法方面主要是基本的描述统计分析异常用户以及基于基础算法模型分析检测异常用户。

现有的通信行业异常用户检测技术存在以下问题:

(1)数据单一,覆盖不全。

行业现有异常用户检测技术单依赖于用户位置数据或者单依赖于用户上网数据进行网元检测,在大数据背景下,用户的行为越来越多样性,兴趣偏好也越来越多样化,使用单一维度数据进行分析检测往往识别率不高,准确率较低。

(2)检测方法较为基础,泛化能力较弱。

现有技术采用描述统计,通过统计用户各指标数据的均值、方差等难以识别异常用户,采用基础的机器学习算法对数据格式限制较高,部分模型不可用离散型数据,部分模型不可用连续型数据,采用的技术模型容易出现过拟合、欠拟合,模型不稳定,泛化能力弱,模型输出表现效果较差。

(3)计算复杂,资源占用大。

现有技术对数据和模型的处理步骤繁多复杂,因而计算量大,模型递归、迭代的执行效率低,占用计算机资源较大。

发明内容

为了克服现有技术的不足,本发明提供一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质,目的在于充分利用移动大数据,以适用更广泛、全面的业务场景,解决数据单一,覆盖不全的问题;使用集成算法,集成了弱学习器,提升模型泛化能力以及模型输出的表现效果,特征粒度并行优化,提升算法效率,减少计算量。

本发明采用的技术方案是:一种基于XGBoost算法的异常用户识别方法,具体实现步骤如下:

S1、数据预处理和特征选择:批量获取所需识别的用户在指定的一段时间内的用户数据,通过数据清洗与特征工程进行数据预处理,输出特征向量和类别标签;

S2、模型建立:将处理好的特征向量和类别标签作为模型输入的样本集D构造集成分类模型,模型计算预测值然后根据模型计算输出的预测值构造算法的目标函数其中目标函数的前部分表示损失函数,后半部分表示目标函数的正则项,用于表达树的复杂度函数,值越小复杂度越低,模型泛化能力越强,正则项中的T是树的叶子节点的个数,γ是控制叶子节点个数的系数;后半部分是叶子节点得分ω的L2模平方,L2是计算平方和再开根号,用于防止过拟合并使优化求解稳定快速,λ是正则项系数,用于保证叶子节点得分不至于过大;迭代得到最优损失函数,从而得到最终分类结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州瀚信通信科技股份有限公司,未经广州瀚信通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110297781.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top