[发明专利]保护隐私安全的多方联合进行特征评估的方法及装置有效
申请号: | 201911269227.5 | 申请日: | 2019-12-11 |
公开(公告)号: | CN110990857B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 陆梦倩;汲小溪;王维强 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62;G06N20/00 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 保护 隐私 安全 多方 联合 进行 特征 评估 方法 装置 | ||
本说明书实施例提供了保护隐私安全的多方联合进行特征评估的方法和装置。该多方至少包括存储有第一样本集的第一设备和存储有第二样本集的第二设备,该方法应用于第一设备;该方法包括:对第一样本集中各样本的初始ID进行加密,并将得到的第一样本集的第一次加密ID和标签发送给第二设备;从第二设备接收第二样本集的第一次加密ID和所在分箱的标识,以及第一样本集的第二次加密ID和标签;对第二样本集的第一次加密ID进行加密,得到第二样本集的第二次加密ID;根据第二样本集的第二次加密ID和第一样本集的第二加密ID确定共有样本;根据共有样本的标签、所在分箱的标识计算特征的信息价值,以针对机器学习模型进行特征选择。
技术领域
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及一种保护隐私安全的多方联合进行特征评估的方法及装置。
背景技术
机器学习所需要的数据往往会涉及到多个领域。例如在基于机器学习的商户分类分析场景中,电子支付平台拥有商户的交易流水数据,电子商务平台存储有商户的销售数据,银行机构拥有商户的借贷数据。数据往往以孤岛的形式存在。由于行业竞争、数据安全、用户隐私等问题,数据整合面临着很大阻力,将分散在各个平台的数据整合在一起训练机器学习模型难以实现。在保证数据不泄露的前提下,使用多方数据联合训练机器学习模型变成目前的一大挑战。为此,提出有联邦学习(Federated Learning)方案。
通常,利用联邦学习(Federated Learning)算法训练机器学习模型需要标签相关特征,因此,联邦学习的第一步是进行特征筛选。目前,较为常用的特征筛选方案为计算特征的信息价值(Information Value,IV),以此来评估该特征和标签的相关性。计算特征的信息价值需要用到标签和特征数据。其中,计算非标签持有方的特征的信息价值需要标签持有方的标签数据,但标签持有方通常不愿意直接向非标签持有方透露的标签和用户的对应关系(即黑白名单库)。并且,非标签持有方也不愿意把其用户和特征数据透露给标签持有方。
另外,利用联邦学习(Federated Learning)需要各平台共有的用户,以进行联合训练。
而对于任一方而言,用户以及用户与标签(或特征)的对应关系都为隐私数据。因此,需要一种能够在各方未知其他方的用户的情况下,以及在标签和特征数据隔离的情况下,计算特征的信息价值的方案。
发明内容
本说明书一个或多个实施例描述了一种保护隐私安全的多方联合进行特征评估的方法及装置,可以在双方未知对方用户以及在标签和特征数据隔离的情况下,计算双方共有用户的特征的信息价值。
根据第一方面,提供了一种保护隐私安全的多方联合进行特征评估的方法,所述多方至少包括第一设备和第二设备,第一设备存储有第一样本集和其中各样本的标签,第二设备存储有第二样本集,所述方法应用于第一设备;所述方法包括:
使用第一密钥对第一样本集中各样本的初始ID进行加密,得到第一样本集中各样本的第一次加密ID;
向所述第二设备发送第一交换信息,其中至少包括,第一样本集中每个样本的第一次加密ID和标签;
从所述第二设备分别接收第二交换信息和第三交换信息,其中,所述第二交换信息包括,由所述第二设备使用第二密钥对第一样本集中每个样本的第一次加密ID进行二次加密后得到的第二次加密ID和对应的标签,且所述第二交换信息中各样本的相对顺序已由所述第二设备扰乱;所述第三交换信息包括,针对第二样本集中每一个样本,由所述第二设备基于所述第二密钥对其初始ID进行加密得到的第一次加密ID和该样本所在第一分箱的标识,所述第一分箱的标识由所述第二设备基于第二样本集中各样本的第一特征的特征值进行分箱得到;
使用所述第一密钥,对所述第三交换信息中各样本的第一次加密ID进行二次加密,得到第一加密集合;
基于第二交换信息中的第二次加密ID和第一加密集合中的第二次加密ID,确定第一样本集和第二样本集的共有样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911269227.5/2.html,转载请声明来源钻瓜专利网。