[发明专利]基于深度自动编码器降维结合GBDT的营销预测方法有效
申请号: | 202011606919.7 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112633937B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 项亮;潘信法 | 申请(专利权)人: | 上海数鸣人工智能科技有限公司 |
主分类号: | G06Q30/0251 | 分类号: | G06Q30/0251;G06Q30/0241;G06F18/243;G06F18/2135;G06F18/2136;G06N3/0455;G06N3/0895 |
代理公司: | 上海天辰知识产权代理事务所(特殊普通合伙) 31275 | 代理人: | 陶金龙;尹一凡 |
地址: | 200436 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 自动 编码器 结合 gbdt 营销 预测 方法 | ||
1.一种基于深度自动编码器降维结合梯度提升决策树的营销预测方法,其特征在于,包括数据预处理步骤S1、数据集划分步骤S2、特征降维步骤S3和模型建立步骤S4;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI、用户访问DPI频次为每一个任务批次号为计量单位,所述用户访问DPI和用户的手机号码归属地特征为类别特征;
步骤S12:对类别特征进行处理;即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理;其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
所述数据集划分步骤S2包括如下步骤:
步骤S21:预处理之后,以用户ID为样本单位,将用户访问DPI是否点击的特征看作稀疏特征,将所述归属地特征和所述用户访问DPI频次定义为连续特征;
步骤S22:选择至少一个所述任务批次号的数据作为样本集;
所述特征降维步骤S3包括如下步骤:
步骤S31:提供深度自动编码器,所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层;其中,所述编码器部分包括一个输入层和第一隐藏层,所述解码器部分包括一个输出层和第三隐藏层;
步骤S32:将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据,所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出,得到参数优化后的所述编码器部分;
步骤S33:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
所述模型建立步骤S4,包括:
步骤S41:提供所需建立的GBDT预测模型;
步骤S42:提取步骤S33得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征;
步骤S42:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,将样本集中的相应样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出;对所述GBDT预测模型进行训练和验证,得到训练好的所述GBDT预测模型。
2.根据权利要求1所述的基于深度自动编码器降维结合梯度提升决策树的营销预测方法,还包括对营销活动点击的预测步骤S5,所述步骤S5具体包括:
步骤S51:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S52:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S53:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
步骤S54:提取步骤S53得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征数据;
步骤S55:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的输出,即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数鸣人工智能科技有限公司,未经上海数鸣人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011606919.7/1.html,转载请声明来源钻瓜专利网。