[发明专利]基于随机森林的异常用户识别方法及装置、设备、介质在审
申请号: | 201810960853.8 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109241418A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 陈伟源 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/2458;G06K9/62 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽样概率 随机森林 异常用户 样本数据 类属性 预设 分类标签 历史用户 目标数据 模型处理 训练过程 大数据 统计 | ||
1.一种基于随机森林模型的异常用户识别方法,其特征在于,包括:
按照预设属性从历史用户的信息中统计出样本数据,并获取所述历史用户的分类标签,其中,所述预设属性至少包括第一类属性及第二类属性;
利用所述样本数据及所述分类标签训练随机森林模型,在训练过程中,所述第一类属性对应于第一抽样概率,所述第二类属性对应于第二抽样概率,所述第一抽样概率大于所述第二抽样概率;
按照所述预设属性从待识别用户的信息中统计出目标数据,并通过训练后的所述随机森林模型处理所述目标数据,以确定所述待识别用户是否为异常用户。
2.根据权利要求1所述的方法,其特征在于,所述预设属性包括N类属性,N≥3;
所述利用所述样本数据及所述分类标签训练随机森林模型,在训练过程中,所述第一类属性对应于第一抽样概率,所述第二类属性对应于第二抽样概率,所述第一抽样概率大于所述第二抽样概率包括:
利用所述样本数据及所述分类标签训练所述随机森林模型,在训练过程中,所述第一类属性对应于所述第一抽样概率,所述第二类属性对应于所述第二抽样概率,第i类属性对应于第i抽样概率,其中,所述第一抽样概率大于所述第二抽样概率,第i-1抽样概率大于所述第i抽样概率,i∈[3,N]。
3.根据权利要求1所述的方法,其特征在于,所述第一类属性为必然抽样属性,所述第一抽样概率为1。
4.根据权利要求1所述的方法,其特征在于,所述利用所述样本数据及所述分类标签训练随机森林模型包括:
对所述样本数据进行随机放回抽样,获得多个样本子集;
分别统计各所述样本子集包含的所述第一类属性与第二类属性的数量,并计算各所述样本子集中所述第二类属性的数量占所述第一类属性与第二类属性的数量之和的比例;
将所述比例高于第一阈值的样本子集移除,利用剩余的样本子集及对应的所述分类标签生成多个决策树;
为各所述决策树分配权重,以得到所述随机森林模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述样本数据进行随机放回抽样,获得多个样本子集包括:
将所述样本数据划分为训练集与验证集;
对所述训练集进行随机放回抽样,获得多个样本子集;
所述为各所述决策树分配权重,以得到所述随机森林模型包括:
利用所述验证集验证各所述决策树的准确率,将所述准确率低于第二阈值的决策树移除;
为剩余的决策树分配权重,以得到所述随机森林模型。
6.根据权利要求1所述的方法,其特征在于,所述预设属性还包括先验属性;所述按照所述预设属性从待识别用户的信息中统计出目标数据,并通过训练后的所述随机森林模型处理所述目标数据,以确定所述待识别用户是否为异常用户包括:
按照所述预设属性从待识别用户的信息中统计出所述目标数据,判断所述目标数据中所述先验属性的数据是否满足先验条件;
如果所述先验属性的数据满足所述先验条件,则确定所述待识别用户为异常用户;
如果所述先验属性的数据不满足所述先验条件,则通过训练后的所述随机森林模型处理所述目标数据,以确定所述待识别用户是否为异常用户。
7.根据权利要求1所述的方法,其特征在于,所述按照预设属性从历史用户的信息中统计出样本数据包括:
按照预设属性从历史用户的信息中统计初始数据;
将所述初始数据分箱,并根据分箱的结果确定所述初始数据对应的样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810960853.8/1.html,转载请声明来源钻瓜专利网。