[发明专利]一种基于稀疏特征嵌入的违约用户概率预测方法在审
申请号: | 201910084188.5 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109919436A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 后其林;李达;钟丽莉;万谊强;仵伟强;赖咪 | 申请(专利权)人: | 华融融通(北京)科技有限公司 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q40/00;G06F16/215;G06F16/2458 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100032 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于稀疏特征嵌入的违约用户概率预测方法:首先将用户的原始数据转换为变量特征,然后将变量特征中的多类别变量映射到一个稀疏矩阵中(类似于one‑hot处理);在此基础上,通过基础决策树模型将该稀疏矩阵映射到概率,再将该概率作为特征增加到模型中,来进行违约用户预测。本发明一种基于稀疏特征嵌入的违约用户概率预测方法,与现有技术相比,其优点在于:有效提高了类别编码的处理能力,同时在后续机器学习的流程中有效降低了特征空间的维度,有利于机器学习模型的学习和处理。 | ||
搜索关键词: | 概率预测 稀疏特征 嵌入的 变量特征 稀疏矩阵 映射 机器学习模型 决策树模型 机器学习 类别编码 特征空间 用户预测 原始数据 概率 维度 转换 学习 | ||
【主权项】:
1.一种基于稀疏特征嵌入的违约用户概率预测方法,其特征在于:该方法步骤如下:步骤一、数据清洗将用户在第三方平台的原始数据转化为不同维度下的变量特征,除了传统的基于最近消费时间,最近的消费金融,最近的消费频率的变量之外,根据提供的数据将数据整体划分为行为数据、消费数据、基本信息数据的维度,通过对这些数据进行分析、转换,最终形成多维度多变量的特征;同时针对原始数据存在的存储不规范、字段不统一、中英文混合、数据缺失、多类别变量的问题,采用数据清洗将原始数据转化为规整数据;步骤二、基于机器学习的特征工程所述的基于机器学习的特征工程分为两部分,分别是传统特征工程和基于机器学习的多类别变量处理方法;原始特征经过传统特征工程加工后会生成新特征,但是部分新特征是稀疏特征,不能直接作为模型的训练数据,因此通过基于机器学习的多类别变量方法,将稀疏特征转换为一维特征,从而可直接作为模型的训练数据;其中:2.1传统特征工程将原始特征中的变量按照时间类、金额类、地址类、电话号码类分别进行特征提取、变量衍生工作;2.2基于决策树算法的多类别变量处理方法针对多类别变量的稀疏特征,提出一种即基于决策树算法的多类别变量处理方法,将稀疏特征转换为一维特征,具体过程如下:首先将多类别变量ω进行one‑hot编码,得到一个稀疏矩阵H,其维度等于原数据中ω的不同类别数量;然后将该稀疏矩阵H和标签信息Y即用户的违约信息结合后,使用决策树模型F进行拟合,将模型输出的概率值P作为新特征放入后续模型F’中,通过这一步即将稀疏矩阵H映射为了一维变量P,并将其作为特征增加到模型中;决策树算法:决策树模型采用CART生成算法,模型输入是训练数据集和停止计算的条件,输出是CART决策树;算法根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构建二叉决策树:(1)设节点的训练数据集为D,计算现有特征对该训练数据集的基尼指数;假设有K个类,样本点属于第k类的概率为pk,则概率分布的基尼指数定义为
对于给定的训练数据集合D,其基尼指数为
(2)此时,对每一个特征A,对其可能取的每个切分点a,根据样本点对A=a的测试为“是”或“否”将D分割成D1和D2两部分,利用如下公式计算A=a时的基尼指数;
(3)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点;依据最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依据特征分配到两个子结点中去;(4)对两个子结点递归调用上述子步骤(1)、(2)、(3),直至满足停止条件;(5)生成CART决策树;决策树算法停止的条件是结点中的样本个数小于预定阈值,或样本集的基尼指数小于预定阈值,或者没有更多特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华融融通(北京)科技有限公司,未经华融融通(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910084188.5/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理