[发明专利]基于GBDT高阶特征组合的推荐方法、装置及存储介质在审
| 申请号: | 202010880908.1 | 申请日: | 2020-08-27 |
| 公开(公告)号: | CN112035453A | 公开(公告)日: | 2020-12-04 |
| 发明(设计)人: | 陈宏斌;孙立博 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/27;G06K9/62 |
| 代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 gbdt 特征 组合 推荐 方法 装置 存储 介质 | ||
本发明涉及大数据领域,揭露一种基于GBDT高阶特征组合的推荐方法,包括:构建建模宽表,并对建模宽表中的待处理数据进行预处理,以确定训练数据;其中,待处理数据包括用户因子数据和物品因子数据;基于训练数据对GBDT模型进行训练,以形成推荐模型;基于推荐模型获取待处理数据的可解释性的交叉特征;对交叉特征进行分析处理,获取对应的特征排序;基于特征排序进行预测推荐。本发明还涉及区块链技术,待处理数据存储于区块链中。本发明可以提高基于GBDT高阶特征组合的推荐效率及准确度。
技术领域
本发明涉及大数据领域,尤其涉及一种基于GBDT高阶特征组合的推荐的方法、装置、电子设备及计算机可读存储介质。
背景技术
特征组合也叫特征交叉,是特征工程中的一种特征生成方式,除了一般对于连续型特征的加减乘除生成新的特征以外,还可以对多个特征(连续特征离散化)进行组合,这里的离散化的特征需要进行一定的分析,离散规划且合理,形成新的特征。
在推荐领域,为了提高推荐预测的准确性,时常需要通过构造组合特征来表达更强的区分能力,常见的组合特征有单特征交叉、二阶特征交叉、高阶特征交叉等方式。在得到组合特征之后,即可通过组合特征的相关指标挖掘出学习目标重要的数据。
目前,传统的特征组合方法主要包括穷举法、基于规则的组合法以及基于模型的二阶特征组合法等,其中的穷举法在特征数量较大时,容易导致高阶交叉后的特征组合数量呈指数增长,难以穷举。基于规则的组合法对规则的设计要求很高,需要对业务有深刻理解,存在耗费大量人力和时间,并且基于构造范式的特征组合依然存在面临指数爆炸,难以穷举的问题。而基于模型的二阶特征组合法仅适用于二阶交叉特征的挖掘,适用范围受限。
发明内容
本发明提供一种基于GBDT高阶特征组合的推荐方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高基于GBDT高阶特征组合的推荐效率及准确度。
为实现上述目的,本发明提供的一种基于GBDT高阶特征组合的推荐方法,包括:
构建建模宽表,并对所述建模宽表中的待处理数据进行预处理,以确定训练数据;其中,所述待处理数据包括用户因子数据和物品因子数据;
基于所述训练数据对GBDT模型进行训练,以形成推荐模型;
基于所述推荐模型获取所述待处理数据的可解释性的交叉特征;
对所述交叉特征进行分析处理,获取对应的特征排序;
基于所述特征排序进行预测推荐。
可选地,所述用户因子数据包括:用于在APP上的操作行为、用户自身的基本信息以及用户历史信息;
所述物品因子数据包括:物品的价格、类别以及销量。
可选地,所述待处理数据存储于区块链中,对所述建模宽表中的待处理数据进行预处理的过程包括:
使用Python对所述待处理数据做清洗和缺失值填充;
对清洗完及缺失值填充后的数据做单变量分析,剔除异常或区别度、饱和度低于预设值的因子,以确定所述训练数据。
可选地,基于所述训练数据对GBDT模型进行训练的过程包括:
采用LightGBM的GBDT模型作为基础模型;
设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率,已形成训练模型;
获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号;
对所述编号进行独热编码,以实现对所述GBDT模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880908.1/2.html,转载请声明来源钻瓜专利网。





