[发明专利]一种音乐网站客户流失预测方法在审
| 申请号: | 201811444669.4 | 申请日: | 2018-11-29 |
| 公开(公告)号: | CN109784966A | 公开(公告)日: | 2019-05-21 |
| 发明(设计)人: | 吴晟;刘叶;韩林峄 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06K9/62;G06F16/2458 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 客户流失 预测 训练模型 音乐网站 测试样本集 训练样本集 准确度 预处理 客户信息库 客户特征 历史数据 目标变量 随机森林 增量数据 算法 测试 分类 客户 优化 分析 | ||
1.一种音乐网站客户流失预测方法,其特征在于:
Step1:抽取数据;以音乐网站当前月为标准抽取前三个月的用户信息作为历史数据A,抽取本月用户数据及后续新增的用户信息作为增量数据B;
Step2:对历史数据A及增量数据B进行探索性分析,对数据进行缺失值和异常值分析;具体步骤如Step2.1~Step2.2所示;
Step2.1:抽取的数据中若存在性别、年龄为空值,以及年龄超过100岁的数据,将在此情况下的数据标记为D;
Step2.2:查找出标记数据D特征观测值中空值的个数,以及年龄的最大值、最小值;
Step3:对历史数据A及增量数据B进行数据预处理,得到新的历史数据A′及增量数据B′,具体步骤如Step3.1~Step3.3所示;
Step3.1:数据清洗;丢弃性别为空的记录;年龄大于90岁小于10岁的记录替换为空值,丢弃年龄为空的记录;
Step3.2:特征规约;原始数据中特征太多,删除不相关、弱相关以及冗余特征,选择与模型相关的特征;
Step3.3:数据变换;将抽取的数据转换为“适当”的格式,以适应挖掘任务及算法的需要;
Step4:确定目标变量;在客户流失场景中,用“0”和“1”来标识某个用户是否流失,其中“1”表示用户流失,“0”表示用户未流失;
Step5:根据数据指标特征和目标变量,历史数据A′得到集成表格A′Tab,增量数据B′得到无目标变量的集成表格B′Tab,其中表格中每一行对应一个样本,每一列对应一个特征;
Step6:按照7:3的分割比例将集成表格A′Tab分割成训练样本集M和测试样本集N,模型的构建主要分为根据训练样本集进行模型训练和根据测试样本集对训练模型进行测试并评价模型效果;
Step7:建立客户流失预测模型;具体步骤如Step7.1~Step7.5;
Step7.1:对训练样本集M采用Bootstraping方法随机有放回采样选出m个样本,共进行n次采样,生成n个训练集;
Step7.2:对于n个训练集,分别训练n个决策树模型;
Step.7.3:对于单个决策树模型,每个样本有T个特征,随机选取t个特征,采取校验函数信息增益比根据信息增益比越大不确定性越小原则选择最佳分类点;
Step7.4:每棵树都按上述分裂方式进行分裂,直到该节点的所有训练样例都属于同一类;
Step7.5:将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果;
Step8:对测试样本集N运用训练模型进行预测,用准确率和召回率对模型进行评价;
Step9:将预处理后的增量数据B′生成的集成表格B′Tab采用训练模型来对用户是否流失进行预测。
2.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step3.2中,选取的数据特征有用户等级、用户性别、用户年龄、注册时间、每月充值总额、每月消费总额、每月活跃天数、每月月登陆次数、每月登陆总时长。
3.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step3.3中,采取的数据格式转换方式有特征构造和数据标准化,运用正太标准化方法将所有变量数据通过标准化转化为均值为“0”,方差为“1”的无量纲数值,其计算公式如(1)所示,其中,平均值标准偏差
4.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step7.3中为了选择最佳分类点,选取的校验函数是特征P对训练样本集M的信息增益比,其计算公式如(2)所示,其中,
5.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step7.5中,多棵树分类器是指每次依据不同的特征信息对数据集进行划分,划分的最终结果是一棵树,该树的每个子树存放一个划分集,而每个叶节点则表示最终分类结果。
6.根据权利要求1所述的音乐网站客户流失预测方法,其特征在于:所述步骤Step8中,准确率是指预测称流失的样本中真实流失样本占比,召回率是指原本即为流失样本且预测成流失样本的样本在真实流失样本中的占比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811444669.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储关键数据的区块链方法
- 下一篇:一种信息的推送方法和装置





