[发明专利]筛选属性数据的方法及客户流失预警方法在审
申请号: | 201711417983.9 | 申请日: | 2017-12-25 |
公开(公告)号: | CN110019166A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 田雨农;苍柏;唐丽娜 | 申请(专利权)人: | 大连楼兰科技股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06K9/62;G06Q30/02 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116023 辽宁省大连市高新技*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性数据 筛选 系数法 双列 客户流失 信息增益 自变量 预警 数据处理领域 使用信息 交集 使用点 | ||
1.一种筛选属性数据的方法,其特征在于,包括:
使用信息增益法筛选属性数据;
使用点双列相关系数法筛选属性数据;
根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据。
2.如权利要求1所述的筛选属性数据的方法,其特征在于,信息增益法筛选属性数据的方法的步骤,包括:
1).计算D中观测正确分类的期望信息Info(D)
其中,D表示所有观测数据集,pi是D中任意观测属于类Ci的非零概率,并用|Ci,D|/|D|估计,i表示观测的取值序号,m表示观测总量。
2)计算根据属性A对D中观测进行分类所需要的信息量
其中,属性A根据数据集D具有v个不同值{α1,α2,…,αv},用属性A将D划分为v个分区域子集{D1,D2,…,Dv},Dj包含D中的观测,它们的A值为αj。
3)计算属性A的信息增益
Gain(A)=Info(D)-InfoA(D);
4)设定阈值,根据增益去除部分的基本属性数据,除去D中去除的基本属性数据,剩余基本属性数据为被筛选出了属性数据。
3.如权利要求1所述的筛选属性数据的方法,其特征在于,点双列相关系数法筛选属性数据的方法,包括:
1)计算目标变量Y中取某值的变量比例Yp及取另外一值的变量比例Yq;
2)计算自变量X中与Yp对应部分的平均值
3)计算自变量X中与Yq对应部分的平均值
4)计算自变量X的标准差Sx;
5)根据公式以计算自变量X和目标变量Y的相关系数。
4.如权利要求1所述的筛选属性数据的方法,其特征在于,使用筛选后的属性数据,构建决策树模型的方法是:选择信息增益最大的属性作为根节点,并为该属性的每个取值建立一个分枝,对于每个分枝,选择剩下的其他所有属性中信息增益最大的属性作为新的分裂节点,并建立相应分枝,递归以上过程,直到没有任何属性,定义该节点为叶子节点,并将该节点标记为所有样本中个数最多的类别。
5.一种客户流失预警方法,其特征在于,包括:
S1.采集客户的基本属性数据、购买车辆数据及售后进4S店行为数据;
S2.确定目标变量、自变量;
S3.筛选自变量;
S4.构建决策树模型;
S5.使用决策树模型实际预测,并在必要时发布流失报警;
其中,筛选自变量,以权利要求1-3中任一项所述的筛选属性数据的方法进行筛选。
6.如权利要求5所述的客户流失预警方法,其特征在于,所述构建决策树模型的方法,使用权利要求4所述的筛选属性数据的方法中的构建决策树模型的方法。
7.如权利要求5所述的客户流失预警方法,其特征在于,步骤S1包括步骤S1_2.数据清洗,所述数据清洗包括下述方法中的一种以上:
1)缺失值处理;
2)噪声数据的识别与处理。
8.如权利要求5所述的客户流失预警方法,其特征在于,还包括步骤:S6.验证模型的准确性:将标注流失、非流失标签的客户数据输入构建好的决策树模型进行分析,比较预测结果和实际结果的差异,以确定模型的准确性并对模型进行修正。
9.如权利要求5或8所述的客户流失预警方法,其特征在于,还包括步骤S6.实际预测,发布流失预警:根据决策树模型或修正后的决策树模型对当前的非流失客户进行预测,针对流失概率较高的客户,发布流失预警。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连楼兰科技股份有限公司,未经大连楼兰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711417983.9/1.html,转载请声明来源钻瓜专利网。