[发明专利]数据处理方法及装置、计算机可读存储介质、电子设备有效
申请号: | 201811117037.7 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109408583B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 郭继昌 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06N99/00 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 可读 存储 介质 电子设备 | ||
1.一种数据处理方法,其特征在于,包括:
获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;
分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树,包括:以所述子样本数据为根节点、所述分箱为非叶节点、且目标数据为叶节点,形成所述单变量分箱决策树;其中,各所述样本数据包括目标数据;
根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱,包括:计算各所述单变量分箱决策树中各叶节点的子信息值;根据所述子信息值计算各所述单变量分箱决策树的信息值,包括:将各所述单变量分箱决策树中各所述叶节点的所述子信息值相加以获得所述信息值;比较各所述单变量分箱决策树的信息值的大小,并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱;
将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。
2.根据权利要求1所述的数据处理方法,其特征在于,分别将所述维度的所述子样本数据划分为多组分箱,包括:
根据不同的频率将所述子样本数据划分为多组分箱;或者
根据预设节点数将所述子样本数据划分为多组分箱。
3.根据权利要求1所述的数据处理方法,其特征在于,各所述样本数据还包括目标数据,将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练,包括:
将所述目标分箱作为输入向量、所述目标数据作为输出向量输入至所述预测模型,以对所述预测模型进行机器训练。
4.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取待分析数据,所述待分析数据具有与所述样本数据相同维度的数据;
将所述待分析数据输入至所述预测模型,以获得预测结果。
5.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;
决策树形成模块,用于分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树,包括:以所述子样本数据为根节点、所述分箱为非叶节点、且目标数据为叶节点,形成所述单变量分箱决策树;其中,各所述样本数据包括目标数据;
目标分箱获取模块,用于根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱,包括:计算各所述单变量分箱决策树中各叶节点的子信息值;根据所述子信息值计算各所述单变量分箱决策树的信息值,包括:将各所述单变量分箱决策树中各所述叶节点的所述子信息值相加以获得所述信息值;比较各所述单变量分箱决策树的信息值的大小,并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱;
模型训练模块,用于将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的数据处理方法。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-4任一项所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811117037.7/1.html,转载请声明来源钻瓜专利网。