[发明专利]一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质在审

专利信息
申请号: 202110297781.5 申请日: 2021-03-19
公开(公告)号: CN112950231A 公开(公告)日: 2021-06-11
发明(设计)人: 苏如春;孙少峰;练镜锋 申请(专利权)人: 广州瀚信通信科技股份有限公司
主分类号: G06Q30/00 分类号: G06Q30/00;G06K9/62
代理公司: 广州专才专利代理事务所(普通合伙) 44679 代理人: 曾嘉仪
地址: 510310 广东省广州市天河区元岗横路37号4203*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 xgboost 算法 异常 用户 识别 方法 设备 计算机 可读 存储 介质
【权利要求书】:

1.一种基于XGBoost算法的异常用户识别方法,其特征在于:具体实现步骤如下:

S1、数据预处理和特征选择:批量获取所需识别的用户在指定的一段时间内的用户数据,通过数据清洗与特征工程进行数据预处理,输出特征向量和类别标签;

S2、模型建立:将处理好的特征向量和类别标签作为模型输入的样本集D构造集成分类模型,模型计算预测值然后根据模型计算输出的预测值构造算法的目标函数其中目标函数的前部分表示损失函数,后半部分表示目标函数的正则项,用于表达树的复杂度函数,正则项中的T是树的叶子节点的个数,γ是控制叶子节点个数的系数;后半部分是叶子节点得分ω的L2模平方,L2是计算平方和再开根号,用于防止过拟合并使优化求解稳定快速,λ是正则项系数,用于保证叶子节点得分不至于过大;迭代得到最优损失函数,从而得到最终分类结果;

S3、模型参数调优和模型验证:优化模型参数,通过对训练后的模型进行多次评估验证,取验证中检测效果最好的参数,输出该模型。

2.根据权利要求1所述的一种基于XGBoost算法的异常用户识别方法,其特征在于:所述的用户数据包括:用户个人信息、用户是否实名、实名年龄、归属地、入网时长、激活时间、开机时长、apru值、主叫次数、被叫次数、总通话次数、网站访问次数、APP访问次数、使用流量、使用时段、访问IP、常驻小区基站、驻留小区的字段。

3.根据权利要求1所述的一种基于XGBoost算法的异常用户识别方法,其特征在于:所述的步骤S1中,数据预处理的具体实现步骤如下:

A1、数据清洗:将提取的用户数据去除重复值、根据不同类别的数据处理缺失值、数据字段格式统一处理;

A2、特征工程:将清洗的数据进行标准化处理、对分类变量进行编码,转为哑变量,对定量字段特征进行二值化、将文本数据转换为数值型数据从而构建模型的特征向量。

4.根据权利要求1所述的一种基于XGBoost算法的异常用户识别方法,其特征在于:所述的步骤S2,其具体实现的步骤如下:

B1、构造模型:将处理好的特征构造成样本集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),采用K折交叉验证划分K个子集,构造集成分类模型,其中xi表示特征向量,yi表示类别标签,R表示实数集,Rm表示第m个样本集的实数集;

B2、模型初始化:利用常量p初始化权重ω0以及函数其中yi为样本标签,γ为调整参数,N为样本总数;

B3、迭代并计算预测值:特征xi与类别标签yi的预测值其中F={F(x)=ωq(x)}(q:Rm→T,ω∈RT)表示决策树CART算法的集合,K表示决策树的个数,T表示决策树上叶子节点数,每一个分类决策树fk对应一个独立的树结构q和叶子的权重ω;

B4、迭代并计算误差:目标函数其中yi是真实值,是预测值;计算前(t-1)次模型结果,根据残差训练模型,每次新模型都在原有模型的基础上添加新的函数,第t迭代后其中C为常数项,Ω(ft)为正则项,ft(xi)=wq(xi)是由树模型结构部分q和叶子节点样本权重w共同表示的函数;采用泰勒公式二阶展开式近似展开并结合正则项展开、移除常数项得其中γ和λ是调整参数,γ表示L2正则化项的权重,λ是用于控制节点分裂阈值的参数,Ij{i|q(xi)=j}表示样本中被分配第j个叶子的标签集合,令带入到目标函数求偏导可以得到即第j个叶子的最优值ω′j和目标函数obj′的最小值

B5、完成模型:采用梯度下降法,得到最优值ω′j和目标函数obj′时损失函数最小,停止迭代,输出最终模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州瀚信通信科技股份有限公司,未经广州瀚信通信科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110297781.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top