[发明专利]一种用于联邦学习的特征过滤方法有效
| 申请号: | 202210939220.5 | 申请日: | 2022-08-05 |
| 公开(公告)号: | CN114996749B | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 朱振超;任江哲;李陆沁;徐时峰;裴阳 | 申请(专利权)人: | 蓝象智联(杭州)科技有限公司 |
| 主分类号: | G06F21/60 | 分类号: | G06F21/60;G06N20/20 |
| 代理公司: | 杭州天麟知识产权代理事务所(特殊普通合伙) 33374 | 代理人: | 占宇 |
| 地址: | 311100 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 联邦 学习 特征 过滤 方法 | ||
本发明公开了一种用于联邦学习的特征过滤方法。它包括以下步骤:发起方将数据集X中的数据特征转换为数据特征标准化值,得到矩阵A,参与方对数据集Y做同样处理,得到矩阵B;发起方将矩阵A进行转置得到转置矩阵AT,全同态加密算法生成公钥和私钥,将转置矩阵AT加密后发送给参与方;参与方根据加密矩阵enc(AT)与矩阵B计算出加密的结果矩阵enc(Z)发送给发起方;发起方对加密的结果矩阵enc(Z)进行解密,并计算出相关系数矩阵F,根据相关系数矩阵F判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。本发明无需第三方参与就能进行特征过滤,且保护了双方的数据隐私。
技术领域
本发明涉及数据特征过滤技术领域,尤其涉及一种用于联邦学习的特征过滤方法。
背景技术
联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果,联邦学习本质上是一种分布式机器学习技术,或机器学习框架,常用于金融风控场景。在联邦建模前,各参与方需要将用于联邦建模的特征进行筛选过滤,否则会增加模型的噪声,建模效果较差。
在目前联邦学习框架下,特征过滤通常采用特征重要性、分箱后的iv值或相关系数进行过滤。现有的相关系数计算需要由三方(数据应用方,数据提供方,辅助计算节点)合作才能完成。负责辅助计算的节点通常要求是可信的中立的第三方机构,对于机构之间计算,这种可信的中立的第三方是很难保证的。其次,这种有第三方的架构对辅助节点的IO能力提出了很高的要求,所有参与方的部分数据均需传输到辅助计算节点上,对辅助计算节点而言这无疑是十分消耗资源的。
发明内容
本发明为了解决上述技术问题,提供了一种用于联邦学习的特征过滤方法,其可以在没有第三方参与的情况下进行特征过滤,且发起方、参与方都不会泄漏各自的特征数据,保护了双方的数据隐私,计算效率高,过滤精度高。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种用于联邦学习的特征过滤方法,发起方持有数据集X,参与方持有数据集Y,数据集X与数据集Y样本对齐,数据集X包括若干个数据特征列,数据集Y包括若干个数据特征列,每个数据特征列都包含有n个数据特征值,包括以下步骤:
S1:发起方将数据集X中的每个数据特征列内的数据特征值转换为对应的数据特征等级值,参与方将数据集Y中的每个数据特征列内的数据特征值转换为对应的数据特征等级值;
S2:发起方将数据集X中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵A;
参与方将数据集Y中的数据特征列内的数据特征等级值转换为对应的数据特征标准化值,得到由数据特征列构成的矩阵B;
S3:发起方将矩阵A进行转置,得到转置矩阵AT;
S4:发起方采用全同态加密算法生成公钥和私钥,使用公钥对转置矩阵AT进行加密,得到加密矩阵enc(AT),发起方将加密矩阵enc(AT)发送给参与方;
S5:参与方将加密矩阵enc(AT)与矩阵B做乘法运算得到加密的结果矩阵enc(Z),并将加密的结果矩阵enc(Z)发送给发起方;
S6:发起方使用私钥对加密的结果矩阵enc(Z)进行解密,得到明文的结果矩阵Z,将结果矩阵Z除以n,得到相关系数矩阵F;
S7:发起方根据相关系数矩阵F中的数据判断数据集X中的每个数据特征列与数据集Y中的每个数据特征列的相关性,通知参与方将数据集Y中高相关性的数据特征列过滤掉。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝象智联(杭州)科技有限公司,未经蓝象智联(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210939220.5/2.html,转载请声明来源钻瓜专利网。





