[发明专利]基于智能决策的异常用户识别方法、装置及计算机设备在审
| 申请号: | 202011211553.3 | 申请日: | 2020-11-03 |
| 公开(公告)号: | CN112307472A | 公开(公告)日: | 2021-02-02 |
| 发明(设计)人: | 陶亦然 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F21/55 | 分类号: | G06F21/55;G06K9/62;G06Q20/40 |
| 代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 智能 决策 异常 用户 识别 方法 装置 计算机 设备 | ||
1.一种基于智能决策的异常用户识别方法,其特征在于,包括下述步骤:
获取原始数据集,其中,所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据;
对所述原始数据集进行数据重组,得到有标签样本以及无标签样本;
将所述有标签样本输入第一用户识别模型,以通过所述有标签样本对所述第一用户识别模型进行第一训练,得到第二用户识别模型;
对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集;
通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集,对所述第二用户识别模型进行第二训练,得到异常用户识别模型;
将待识别用户样本输入所述异常用户识别模型,得到用户识别结果。
2.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述原始数据集进行数据重组,得到有标签样本以及无标签样本的步骤包括:
将所述黑名单数据和所述验真用户数据分别与所述原始用户数据进行数据比对,以确定有标签用户列表及初始无标签样本;
根据所述原始数据集对所述有标签用户列表进行数据填充,得到初始有标签样本;
对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本。
3.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述初始有标签样本和所述初始无标签样本进行特征筛选,得到有标签样本以及无标签样本的步骤具体包括:
将所述初始有标签样本输入第一用户识别模型,以通过所述初始有标签样本对所述第一用户识别模型进行第三训练,得到第三用户识别模型;
将所述初始无标签样本输入所述第三用户识别模型,得到所述初始无标签样本的伪标签;
通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。
4.根据权利要求3所述的基于智能决策的异常用户识别方法,其特征在于,所述通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征的步骤包括:
将所述初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样,得到若干特征筛选训练集;
基于所述若干特征筛选训练集,生成若干决策树以得到随机森林;
根据袋外数据计算所述随机森林中各决策树的第一袋外数据误差,其中,所述袋外数据来自所述各决策树所对应的特征筛选训练集;
随机改变所述袋外数据中的特征,并计算各决策树的第二袋外数据误差;
根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度;
根据计算得到的特征贡献度对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选,得到有标签样本以及无标签样本,并将筛选到的特征确定为目标特征。
5.根据权利要求1所述的基于智能决策的异常用户识别方法,其特征在于,所述对所述无标签样本进行数据增强,得到与所述无标签样本对应的增强无标签样本集的步骤包括:
对于每个无标签样本,根据无标签样本间的欧氏距离确定无标签样本的临近样本集,其中,所述临近样本集包括预设数量的临近样本;
对于每个临近样本,在临近样本与所述无标签样本的特征空间连线上,选取扩充样本点;
根据选取的扩充样本点以及所述无标签样本,构建得到与所述无标签样本对应的增强无标签样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211553.3/1.html,转载请声明来源钻瓜专利网。





