[发明专利]基于多维度数据的彩票用户流失预测方法及其系统在审

申请号：	201710078856.4	申请日：	2017-02-14
公开（公告）号：	CN106997493A	公开（公告）日：	2017-08-01
发明（设计）人：	谭浩宇;韩旭;宋骁程	申请（专利权）人：	云数信息科技（深圳）有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/34;G06F17/30
代理公司：	广州三环专利商标代理有限公司44202	代理人：	麦小婵,郝传鑫
地址：	518000 广东省深圳市南山区粤***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多维度数彩票用户流失预测方法及其系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于多维度数据的彩票用户流失预测方法及其系统。

背景技术

在我国以及其他一些国家，彩票作为政府运作的合法化游戏的一种形式，通常基于由彩民从预定的号码范围内选择一些号码组成的组合，所选的号码组合结合具体游戏选择的号码的总数确定该游戏的中奖率。彩民可以通过填诸如博彩纸票这样的形式的上的相应空格表明用户的号码选择，或由彩票销售设备随机选择等。博彩纸票上的号码选择然后通过由彩票销售设备读出，然后通常由随机抽奖确定这局彩票游戏的中奖号码。

由于这类与彩票相关的企业的效益直接与用户数量以及用户在该企业中的消费直接相关，而根据数据统计，留住一个用户所需的成本几乎是争取一个新用户成本的1/5，尤其是对用户体量很大的彩票游戏行业来说，减少用户流失，意味着成本的降低和利润流失的减少，因此，各个行业的用户尤其是彩票行业的用户流失预测正逐步得到重视。

目前，彩票行业的用户存在着基数大、用户活跃度参差不齐的特点，不同于传统的游戏产业的用户特点。现有的用户流失预测技术方案主要集在使用于手游、页游、WEB服务等互联网应用场景，用户流失的定义中使用的主要指标为：用户上次访问的时间间隔。即，根据事先设定的流失时间(如15天)，在流失时间期限内完全没有发生登录访问行为的用户，即定义为流失用户。

但是，这种单一的基于时间间隔的流失用户的定义对彩票游戏相关的多维度的数据用户并不适用。现有的用于预测用户流失的模型主要有基于经验和统计的规则模型，这样的模型在面对海量、多样、复杂的数据时很难提取出准确的规则来预测用户的流失。而且在彩票游戏行业中，需要基于给定的时间段、用户投入情况和用户产出情况等多个维度来实现用户流失的定义。例如，在给定的时间段T内，所有参与彩票抽奖游戏的用户中，将投入成本同比增长率最低的20％用户，定义为流失用户。

在现有技术中，回归分析被广泛应用于用户流失预测，但其对训练数据的质量要求较高，需排除自变量中的共线性问题以及合理地处理异常值和缺省值，而游戏用户数据来源广泛而复杂，往往存在异常值和缺省，简单的回归分析并不能得到良好的流失预测结果。

神经网络也是目前常用的预测模型，它采用一组连接的输入/输出单元，其中每个连接都分配有一个加权值。神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。神经网络的学习过程是通过跌代运算对权值不断进行调整的过程，学习的目标就是通过权值的调整使输入元组被正确的标号。相比其它常用的数据挖掘技术，神经网络用于流失用户的预测有着良好的预测能力，但是其缺点也不容忽视，比如本身的黑盒化，不易解释，以及对计算能力要求高等。

发明内容

本发明所要解决的技术问题是，提供一种基于多维度数据的彩票用户流失预测技术方案，实现对来源广泛而复杂的用户流失预测，降低预测的难度和提高预测的准确率。

为解决以上技术问题，一方面，本发明实施例提供一种基于多维度数据的彩票用户流失预测方法，包括：

采集原始用户数据，对所述原始用户数据进行抽取和转换后，以指定格式分类加载至数据库；

对所述原始用户数据进行预处理，包括：检测数据的一致性和剔除异常值；对数据库中存储的数据进行除重处理，过滤重复数据；对所述原始用户数据进行聚集和规范化变换，获得多维度用户数据；所述多维度用户数据包括用户个人信息，历史投入信息和历史产出信息；

对进行预处理后的多维度用户数据进行迭代测试，提取与用户流失相关的潜在特征，并对所述潜在特征进行调整、筛选和组合，获得与用户流失相关的特征集；

基于时间维度，将所述特征集划分为训练集、验证集和测试集；

基于所述训练集进行逻辑回归建模，获得多组预测模型；

将所述验证集分别输入至所述多组预测模型中，比较各组预测模型的准确度，并将准确度最高的一组预测模型作为最终的用户流失评估模型；

将所述测试集输入至所述用户流失评估模型中，对用户流失情况进行预测。

进一步地，所述采集原始用户数据，对所述原始用户数据进行抽取和转换后，以指定格式分类加载至数据库，包括：

根据数据类别和时间范围，对采集获得的原始用户数据进行归类；采用关键表和关键字段将原始用户数据转换为多个数据表；所述数据表包括可持续添加的历史记录表和待全表替换的信息引用表；将新增的数据表周期性地加载至指定路径中，以进行预测模型的更新。