[发明专利]基于GBDT高阶特征组合的推荐方法、装置及存储介质在审
| 申请号: | 202010880908.1 | 申请日: | 2020-08-27 |
| 公开(公告)号: | CN112035453A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 陈宏斌;孙立博 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 gbdt 特征 组合 推荐 方法 装置 存储 介质 | ||
1.一种基于GBDT高阶特征组合的推荐方法,其特征在于,所述方法包括:
构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;
基于所述训练数据对GBDT模型进行训练,以形成推荐模型;
基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;
对所述交叉特征进行分析处理,获取对应的特征排序;
基于所述特征排序进行预测推荐。
2.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,
所述用户因子数据包括:用于在APP上的操作行为、用户自身的基本信息以及用户历史信息;
所述物品因子数据包括:物品的价格、类别以及销量。
3.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述待处理数据存储于区块链中,对所述建模宽表中的待处理数据进行预处理的过程包括:
使用Python对所述待处理数据做清洗和缺失值填充;
对清洗完及缺失值填充后的数据做单变量分析,剔除异常或区别度、饱和度低于预设值的因子,以确定所述训练数据。
4.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,基于所述训练数据对GBDT模型进行训练的过程包括:
采用LightGBM的GBDT模型作为基础模型;
设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率,已形成训练模型;
获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号;
对所述编号进行独热编码,以实现对所述GBDT模型的训练。
5.如权利要求1所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述基于所述推荐模型获取所述待处理数据的可解释性的交叉特征的过程包括:
通过第一算法对所述推荐模型进行解析,获取每个叶子节点对应的高阶交叉特征;
通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。
6.如权利要求5所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述第一算法包括:
预训练所述推荐模型的GBDT模型;
将原始特征向量输入所述GBDT模型中,对叶子节点进行独热编码,获取与每个原始特征向量相对应的一串GBDT编码;
将编码后的GBDT向量作为所述GBDT模型的输入,训练获取所述高阶交叉特征。
7.如权利要求5所述的基于GBDT高阶特征组合的推荐方法,其特征在于,所述第二算法包括:
步骤一:获取所述推荐模型的GBDT的一颗决策树,并将指针指向该决策树的节点;其中,所述指针为保存变量地址的变量;
步骤二:判断所述节点是否为叶子节点;如果所述节点不是叶子节点,则将节点代表的特征压入栈,否则,则存储整堆栈当前的交叉特征数据,然后保存叶子对应的样本量、信息增益信息,并且压入一个空值;
步骤三:将所述指针指向所述节点的左子树,并且重复执行所述步骤二,直至所有的左子树都被遍历,推出栈顶的数据;同时,
将所述指针指向所述节点的右子树,并且重复执行所述步骤二,直至所有的右子树都被遍历,推出栈顶的数据;
步骤四:返回所述步骤二中保存的所有数据,该所有数据即为该决策树的所有可解释性的交叉特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880908.1/1.html,转载请声明来源钻瓜专利网。





