[发明专利]一种无第三方的联邦梯度提升决策树模型训练方法有效
| 申请号: | 202210052120.0 | 申请日: | 2022-01-18 |
| 公开(公告)号: | CN114091624B | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 郭梁;徐时峰;刘洋;裴阳;毛仁歆;宋鎏屹 | 申请(专利权)人: | 蓝象智联(杭州)科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/02;G06F30/27 |
| 代理公司: | 杭州天麟知识产权代理事务所(特殊普通合伙) 33374 | 代理人: | 占宇 |
| 地址: | 311100 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 第三 联邦 梯度 提升 决策树 模型 训练 方法 | ||
1.一种无第三方的联邦梯度提升决策树模型训练方法,用于银行和运营商之间联合风控建模,其特征在于,包括以下步骤:
S1:训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数;
S2:训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,所述样本数据集x包含n个特征数据,训练参与方从自身数据库中同步采样与训练发起方采样的d个样本数据集x具有同样ID的d个样本数据集y,每个样本数据集y具有唯一对应的ID,所述样本数据集y包含m个特征数据;
S3:训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
S4:训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
S5:训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度,将计算出的所有一阶梯度进行比特切片存储,将计算出的所有二阶梯度进行比特切片存储;
S6:训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和;
S7:训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和,搜索最优分裂点;
S8:训练发起方将分裂信息、树分裂终止信号发送给训练参与方;
S9:重复执行步骤S2至步骤S8,直到达到初始化的建树棵数或损失函数的变化值小于终止阈值;
所述步骤S2包括以下步骤:
训练发起方从自身数据库中采样d个样本数据集x,每个样本数据集x具有唯一对应的ID,将d个样本数据集x依次编号为1,2……d,所述样本数据集x包含n个特征数据,这n个特征数据依次标记为x1、x2……xn,则编号为i的样本数据集x(i)的结构为x(i)={x1(i)、x2(i)、……xn(i)},1≤i≤d,训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方;
训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y,每个样本数据集y具有唯一对应的ID,每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样,所述样本数据集y包含m个特征数据,这m个特征数据依次标记为y1、y2……ym,则编号为i的样本数据集y(i)的结构为y(i)={y1(i)、y2(i)、……ym(i)};
所述步骤S3包括以下步骤:
训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息,训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息,每个特征数据的分箱数量都为N;
对编号为i的样本数据集x(i)中的第p个特征数据xp(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤p≤n:
根据d个样本数据集x的第p个特征数据中的最大值Ap、最小值Bp以及分箱数量N计算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据xp(i)对应的分箱信息Xp(i)为N位的二进制数,,表示Xp(i)的第r位,1≤r≤N,如果特征数据xp(i)属于第r个分箱,则Xp(i)的第r位为1,其余位都为0;
对编号为i的样本数据集y(i)中的第q个特征数据yq(i)进行分箱并记录分箱信息的方法包括以下步骤,1≤q≤m:
根据d个样本数据集y的第q个特征数据中的最大值Aq、最小值Bq以及分箱数量N计算出每个分箱的区间边界,N个分箱依次编号为1,2……N,设定特征数据yq(i)对应的分箱信息Yq(i)为N位的二进制数, ,表示Yq(i)的第r位,如果特征数据yq(i)属于第r个分箱,则Yq(i)的第r位为1,其余位都为0;
所述步骤S4包括以下步骤:
训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储,训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储;
训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵Dp1:
,
将矩阵Dp1转置得到矩阵Dp2:
,
矩阵Dp2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Dp(1)、Dp(2)…Dp(N),并进行存储,矩阵Dp2的第r行组成的第r个分箱的分箱信息比特切片数据,1≤r≤N;
训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤:
将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵Eq1:
,
将矩阵Eq1转置得到矩阵Eq2:
,
矩阵Eq2的每一行组成一个比特切片数据,得到N个分箱信息比特切片数据Eq (1)、Eq(2)…Eq(N),并进行存储,矩阵Eq2的第r行组成的第r个分箱的分箱信息比特切片数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝象智联(杭州)科技有限公司,未经蓝象智联(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210052120.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动分选机
- 下一篇:一种车载12V/24V输入低压门限切换电路





