[发明专利]基于联邦学习的样本特征分箱方法、终端、设备和介质在审
| 申请号: | 202011521194.1 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112633367A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 康焱 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62;G06Q40/04 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 联邦 学习 样本 特征 方法 终端 设备 介质 | ||
1.一种基于联邦学习的样本特征分箱方法,其特征在于,所述基于联邦学习的样本特征分箱方法包括:
第一终端获取第二终端发送的各个样本信息,其中,所述样本信息包括样本特征对应的标识符;
对各个所述标识符进行排序,并对排序后的各个所述标识符进行分箱操作得到多个第一分箱,其中,所述第一终端根据所述标识符关联的数据类型对各个所述标识符进行排序,所述样本信息包括所述样本特征的特征值对应的数据类型;
根据所述标识符确定每个所述分箱对应的标签值,并根据所述第一分箱对应的各个标签值确定相邻的第一分箱的合并值;
在各个所述合并值不满足合并要求时,将每个所述第一分箱对应的各个标识符发送至第二终端,以供所述第二终端将属于所述第一分箱的每个标识符的特征值确定为同一分箱。
2.如权利要求1所述的基于联邦学习的样本特征分箱方法,其特征在于,所述根据所述第一分箱对应的各个标签值确定相邻的第一分箱的合并值的步骤之后,还包括:
在含有满足合并要求的目标合并值时,将所述目标合并值对应的相邻所述第一分箱进行合并得到第二分箱;
将各个所述第二分箱以及未进行合并的各个所述第一分箱,重新更新为各个第一分箱,并返回执行所述根据所述第一分箱对应的各个标签值确定相邻的第一分箱的合并值的步骤。
3.如权利要求2所述的基于联邦学习的样本特征分箱方法,其特征在于,所述将各个所述第二分箱以及未进行合并的各个所述第一分箱,重新更新为各个第一分箱的步骤之后,还包括:
确定更新后的各个第一分箱的数量;
在所述数量大于最小分箱数量,返回执行所述根据所述第一分箱对应的各个标签值确定相邻的第一分箱的合并值的步骤;
在所述数量小于或等于最小分箱数量时,将更新后的每个所述第一分箱对应的各个标识符发送至第二终端,以供所述第二终端将属于更新后的所述第一分箱的每个标识符对应的特征值确定为同一分箱。
4.如权利要求1所述的基于联邦学习的样本特征分箱方法,其特征在于,所述对各个所述标识符进行排序的步骤包括:
根据所述样本信息确定所述标识符对应的特征值的数据类型;
根据所述数据类型对各个所述标识符进行升序排序。
5.如权利要求4所述的基于联邦学习的样本特征分箱方法,其特征在于,所述根据所述数据类型对各个所述标识符进行升序排序的步骤包括:
在所述数据类型为连续数据类型时,确定各个所述标识符的发送顺序;
根据所述发送顺序对各个所述标识符进行升序排列。
6.如权利要求4所述的基于联邦学习的样本特征分箱方法,其特征在于,所述根据所述数据类型对各个所述标识符进行升序排序的步骤包括:
在所述数据类型为离散数据类型时,确定每个标识符对应的标签值的标签信息;
根据所述标签信息对各个所述标签值进行升序排列得到每个所述标签值的序号,并根据各个所述标签值的序号对各个所述标识符进行升序排序。
7.如权利要求1-6中任一项所述的基于联邦学习的样本特征分箱方法,其特征在于,所述根据所述第一分箱对应的各个标签值确定相邻的第一分箱的合并值的步骤包括:
根据所述标签值确定相邻的第一分箱内每个所述标识符对应的样本所属的标签类别;
根据相邻的第一分箱内每个所述标签类别的数量,确定相邻的第一分箱的合并值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011521194.1/1.html,转载请声明来源钻瓜专利网。





