[发明专利]基于随机森林的产品复投预测方法、装置、设备及介质在审
申请号: | 202111162386.2 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113887625A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 刘涛 | 申请(专利权)人: | 未鲲(上海)科技服务有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/215;G06Q40/06 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 200135 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 森林 产品 预测 方法 装置 设备 介质 | ||
1.一种基于随机森林的产品复投预测方法,其特征在于,包括:
从预设数据库中获取客户的复投特征数据,并通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,其中,所述复投特征数据包括固定复投特征数据及交互复投特征数据;
对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集;
根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型;
接收客户端发送的客户复投特征数据,并根据所述客户复投特征数据及所述复投决策模型预测与所述客户复投特征数据相对应的复投率。
2.根据权利要求1所述的方法,其特征在于,所述通过数据清洗及数据归一化方法对所述复投特征数据进行预处理,包括:
对所述复投特征数据进行缺失值填充及异常值处理以得到第一复投特征数据;
对所述第一复投特征数据进行归一化处理以得到第二复投特征数据,将所述第二复投特征数据作为预处理后的所述复投特征数据。
3.根据权利要求1所述的方法,其特征在于,所述对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数,并根据所述相关系数将满足预设条件的所述复投特征数据作为目标数据集,包括:
调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数;
筛选出数值大于预设值的相关系数作为目标对象,并计算所述目标对象在总的所述相关系数中的占比以得到相关比值;
判断所述相关比值是否大于预设比值;
若所述相关比值大于所述预设比值,则将所述目标对象对应的复投特征数据作为目标数据集。
4.根据权利要求3所述的方法,其特征在于,所述判断所述相关比值是否大于预设比值之后,还包括:
若所述相关比值不大于所述预设比值,则将所述相关系数的值不大于预设系数值所对应的任意N列复投特征数据相加合并,以形成新的复投特征数据,并返回执行所述调用pandas库中的corr函数对预处理后的任意两个所述复投特征数据进行相关性计算以得到相关系数的步骤,其中,N为不小于2的任意数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据集对Scikit-learn库中随机森林算法模型进行训练及评估以得到复投决策模型,包括:
将所述目标数据集按预设比例分为训练数据集及验证数据集;
将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止;
将所述验证数据集输入训练后的所述随机森林算法模型以得到复投预测结果;
将所述复投预测结果与所述验证数据集中的复投结果进行比较以得到复投预测正确率,并判断所述复投预测正确率是否超过预设评估值;
若所述复投预测正确率超过所述预设评估值,则将训练后的所述随机森林算法模型作为复投决策模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述训练数据集输入Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止,包括:
设置Scikit-learn库中随机森林算法模型的决策树数量及创建每棵所述决策树时随机选定的特征数量;
通过交叉验证方法对所述训练数据集进行验证;
通过R方拟合度确定最优的所述决策树数量及所述特征数量,并根据验证后的所述训练数据集、最优的所述决策树数量以及最优的所述特征数量对所述Scikit-learn库中的随机森林算法模型进行训练直到预设训练次数为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于未鲲(上海)科技服务有限公司,未经未鲲(上海)科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111162386.2/1.html,转载请声明来源钻瓜专利网。