[发明专利]一种无第三方的联邦梯度提升决策树模型训练方法有效

申请号：	202210052120.0	申请日：	2022-01-18
公开（公告）号：	CN114091624B	公开（公告）日：	2022-04-26
发明（设计）人：	郭梁;徐时峰;刘洋;裴阳;毛仁歆;宋鎏屹	申请（专利权）人：	蓝象智联（杭州）科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q40/02;G06F30/27
代理公司：	杭州天麟知识产权代理事务所(特殊普通合伙) 33374	代理人：	占宇
地址：	311100 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种第三联邦梯度提升决策树模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种无第三方的联邦梯度提升决策树模型训练方法，用于银行和运营商之间联合风控建模，其特征在于，包括以下步骤：

S1：训练发起方、训练参与方同步初始化各自联邦梯度提升决策树模型的模型参数；

S2：训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集x具有唯一对应的ID，所述样本数据集x包含n个特征数据，训练参与方从自身数据库中同步采样与训练发起方采样的d个样本数据集x具有同样ID的d个样本数据集y，每个样本数据集y具有唯一对应的ID，所述样本数据集y包含m个特征数据；

S3：训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息，训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息，每个特征数据的分箱数量都为N；

S4：训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储，训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储；

S5：训练发起方计算出每个样本数据集x对应的一阶梯度、二阶梯度，将计算出的所有一阶梯度进行比特切片存储，将计算出的所有二阶梯度进行比特切片存储；

S6：训练发起方计算样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，训练发起方、训练参与方根据安全乘法协议计算出样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和；

S7：训练发起方根据计算出的样本数据集x中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和以及样本数据集y中每个特征数据的每个分箱对应的一阶梯度和、二阶梯度和，搜索最优分裂点；

S8：训练发起方将分裂信息、树分裂终止信号发送给训练参与方；

S9：重复执行步骤S2至步骤S8，直到达到初始化的建树棵数或损失函数的变化值小于终止阈值；

所述步骤S2包括以下步骤：

训练发起方从自身数据库中采样d个样本数据集x，每个样本数据集x具有唯一对应的ID，将d个样本数据集x依次编号为1，2……d，所述样本数据集x包含n个特征数据，这n个特征数据依次标记为x₁、x₂……x_n，则编号为i的样本数据集x(i)的结构为x(i)=｛x₁(i)、x₂(i)、……x_n(i)｝，1≤i≤d，训练发起方将d个样本数据集x对应的ID及编号发送给训练参与方；

训练参与方从自身数据库中采样接收到的d个ID对应的样本数据集y，每个样本数据集y具有唯一对应的ID，每个样本数据集y对应的编号与同样ID的样本数据集x对应的编号一样，所述样本数据集y包含m个特征数据，这m个特征数据依次标记为y₁、y₂……y_m，则编号为i的样本数据集y(i)的结构为y(i)=｛y₁(i)、y₂(i)、……y_m(i)｝；

所述步骤S3包括以下步骤：

训练发起方对每个样本数据集x中的每个特征数据进行分箱并记录对应的分箱信息，训练参与方对每个样本数据集y中的每个特征数据进行分箱并记录对应的分箱信息，每个特征数据的分箱数量都为N；

对编号为i的样本数据集x(i)中的第p个特征数据x_p(i)进行分箱并记录分箱信息的方法包括以下步骤，1≤p≤n：

根据d个样本数据集x的第p个特征数据中的最大值A_p、最小值B_p以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据x_p(i)对应的分箱信息X_p(i)为N位的二进制数，，表示X_p(i)的第r位，1≤r≤N，如果特征数据x_p(i)属于第r个分箱，则X_p(i)的第r位为1，其余位都为0；

对编号为i的样本数据集y(i)中的第q个特征数据y_q(i)进行分箱并记录分箱信息的方法包括以下步骤，1≤q≤m：

根据d个样本数据集y的第q个特征数据中的最大值A_q、最小值B_q以及分箱数量N计算出每个分箱的区间边界，N个分箱依次编号为1，2……N，设定特征数据y_q(i)对应的分箱信息Y_q(i)为N位的二进制数，，表示Y_q(i)的第r位，如果特征数据y_q(i)属于第r个分箱，则Y_q(i)的第r位为1，其余位都为0；

所述步骤S4包括以下步骤：

训练发起方对样本数据集x的每个特征数据对应的所有分箱信息进行比特切片存储，训练参与方对样本数据集y的每个特征数据对应的所有分箱信息进行比特切片存储；

训练发起方对样本数据集x的第p个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤：

将每个样本数据集x的第p个特征数据对应的分箱信息拼接成矩阵D_p1：

，

将矩阵D_p1转置得到矩阵D_p2：

，

矩阵D_p2的每一行组成一个比特切片数据，得到N个分箱信息比特切片数据D_p(1)、D_p(2)…D_p(N)，并进行存储，矩阵D_p2的第r行组成的第r个分箱的分箱信息比特切片数据，1≤r≤N；

训练参与方对样本数据集y的第q个特征数据对应的所有分箱信息进行比特切片存储的方法包括以下步骤：

将每个样本数据集y的第q个特征数据对应的分箱信息拼接成矩阵E_q1：

，

将矩阵E_q1转置得到矩阵E_q2：