[发明专利]一种基于多模型融合的潜在换机用户发现方法在审
申请号: | 201710089934.0 | 申请日: | 2017-02-20 |
公开(公告)号: | CN106845731A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 王进;夏翠萍;杨阳;王鸿;李智星;邓欣;陈乔松;胡峰;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/02;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红,李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 融合 潜在 用户 发现 方法 | ||
技术领域
本发明涉及数据清洗方法、异常数据处理方法、用户换机打标方法、特征工程构建方法,以及采用多模型融合进行换机用户预测的技术。
背景技术
运营商几乎每分每秒都在产生着海量业务数据,如何将这些数据利用起来并产生价值,这就成了运营商的一个迫切需求。然而随机投放的推送对多数用户造成无意义的干扰。对商家而言,滥发的推送可能降低品牌声誉,同时难以估算营销成本。基于数据挖掘技术和手段,通过运营商提供的精确的用户消费行为和历史换机轨迹刻画用户画像、了解用户需求,充分利用数据挖掘和机器学习技术为运营商的业务开展提供有力支撑。
利用数据挖掘、机器学习等技术对用户行为进行分析,发现潜在的换机用户。当前通用的方法为利用有监督的分类器对用户历史换机数据、用户app使用情况等信息来建立模型,对用户是否换机,换机类型等做出预测。
随着大数据时代的到来,如何有效的进行数据挖掘,从而产生商业价值已经成为了一种企业必然趋势。
发明内容
本发明提出了一种基于多模型融合的分类算法对用户换机行为进行预测,同时本发明还涉及到了用户历史行为分析、样本标注意、特征工程构建、特征选择和特征变换等领域的技术。
为了实现上述目的,本发明采用的技术方案是:一种基于多模型融合的潜在换机用户发现方法,包括以下步骤:
(1)数据采集和预处理,收集用户的基本信息和用户历史换机轨迹信息,删除异常信息,处理缺失信息,对数值型信息进行归一化处理;利用时间窗口划分训练集和测试集。用户的基本信息和用户历史换机轨迹信息从运营商的用户最近1年消费信息中获取。
(2)特征构建,根据步骤(1)训练集和测试集中的数据提取出基本信息,以及对基本信息进行扩展得到原始特征;对原始特征分别进行排序得到排序特征;用皮尔逊相关系数衡量原始特征和目标变量之间的相关性,构建多项式特征;将训练集和测试集中的无关联属性特征作为离散特征。
(3)模型构建及模型融合,分别构建树型模型、超平面模型和惰性模型中的分类器Xgboost、LIBSVM和KNN,用训练集中的数据分别对分类器Xgboost,LIBSVM和KNN进行训练,再用训练后的Xgboost、LIBSVM和KNN分别训练测试集。
(4)用步骤(3)所述Xgboost、LIBSVM和KNN分类器分别对未知样本进行预测,得到的多个预测结果进行加权投票为最终的预测结果。
上述步骤(1)中还包括根据用户历史换机轨迹信息对用户打标签,具体为:过滤换机时间小于20天的用户历史换机轨迹;统计用户在整个考察时间窗内使用的手机机型集合(PA)和考察时间窗之前使用的手机机型集合(PB),若集合PA和PB存在差异,那么用1标注该用户为换机用户,否则用0标注该用户不是换机用户。
上述步骤(1)中异常信息是指用户的特征缺失率大于50%,则删除。处理缺失信息包括,当用户在某一个时间段内使用的手机缺失,按照时间点向后滚动,即用用户的下个时间段的手机参数填充该缺失,若用户的下个时间段内手机也存在缺失,那么向前滚动,即用用户的上个时间段的手机参数填充该缺失。
所述Xgboost分类器的构建方法如下:分别对原始特征、排序特征、离散特征、多项式特征进行特征选择,按照特征重要性排序,在原始特征中选取前N1个特征,在排序特征中选取前N2个特征,在离散特征中选取前N3个特征,在多项式特征中选取前N4个特征(上述参数N1,N2,N3,N4随机取值,但N1,N2,N3,N4分别小于原始特征个数、排序特征个数、离散特征个数、多项式特征个数),Xgboost模型参数在±0.5围内(以初始化参数值为参考,上下0.5以内浮动)随机扰动,生成多个不同的Xgboost模型,所有的模型投票得到Xgboost模型。
本发明利用多模型融合方法来进行潜在换机用户挖掘,客服了传统的人工识别换机用户的局限性;同时,不同算法的结果着眼点不同,能满足不同用户的需求,将众多的机器学习算法进行合理地组合更能刻画用户换机的多样性、准确性。通过用户历史数据进行训练,最后在数据集上进行预测,从而发现即将换机的高价值用户,并精确地为用户推送手机机型。本发明从实际问题手机终端精准营销出发,将数据挖掘技术应用到潜在手机终端更换的预测研究中,研究工作对决策及市场人员开展工作有重要的作用。
附图说明
图1为潜在换机用户发现的流程图;
图2为本发明构建Xgboost模型的流程图;
图3为本发明构建KNN模型的流程图;
图4为本发明模型融合的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710089934.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双螺旋给料机用空冷套
- 下一篇:一种四螺旋卸料机结构
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理