[发明专利]一种纵向联邦学习场景中高效的特征贡献评估方法在审
| 申请号: | 202011465467.5 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112651170A | 公开(公告)日: | 2021-04-13 |
| 发明(设计)人: | 张兰;李向阳;刘梦境 | 申请(专利权)人: | 德清阿尔法创新研究院 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F111/08 |
| 代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
| 地址: | 313200 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 纵向 联邦 学习 场景 高效 特征 贡献 评估 方法 | ||
一种纵向联邦学习场景中高效的特征贡献评估方法,所述该方法包括三个模块:1)运算拆分2)MC采样近似3)通信聚合,本发明设计了一个面向纵向联邦学习预测过程的公平的特征贡献评估方法。基于shapley value评估,保证了评估结果的公平性。同时通过MC采样近似,降低双方的计算开销。通过泰勒展开和运算拆分,降低通信开销。
技术领域
本发明涉及的纵向联邦学习场景中高效的特征贡献评估方法,属于特征选择和模型可解释性领域。
背景技术
数据是人工智能发展的“土壤”。能否获得大规模、高质量的数据集已经成为制约AI相关研究发展的重要因素。隐私、制度等限制了数据共享,而联邦学习在数据保存在本地的情况下实现共同建模,是数据共享的新趋势和机遇。而在联邦学习场景下,模型预测过程中参与方的特征贡献评估及后续的收益分配,是一个重要的问题。本发明针对特征分布在不同拥有方的纵向联邦学习场景,旨在模型预测过程中,公平地评估每个参与方提供的特征值的贡献,同时降低评估过程中的计算开销和通信开销。
现有的特征贡献评估方法主要基于Shapley value(SV)。SV具有很好的公平性,但SV基于边际增益的期望计算导致计算复杂度很高。现有方法从两个角度降低计算开销:1)蒙特卡洛(MC)采样近似。根据中心极限定理,随着采样次数的增加,采样均值趋于期望。通过调整采样次数来调节计算开销与计算精度之前的平衡,同时可以在有限的开销预算下,降低计算结果的误差。2)线性解释方法(SHAP)。在评估点附近采样,结合基于SV的权重训练线性模型,以模型系数作为特征贡献,可以降低采样次数,同时计算结果更稳定。但是现有方法在联邦学习场景下面临困境。基于采样的方法,不仅带来巨大的计算开销,同时还有通信开销。线上采样过程中双方通信带来的时间延迟在一些情况下远大于计算延迟。
发明内容
本发明的目的在于克服现有技术的不足,为公平地评估联邦学习中参与方的特征贡献,同时降低计算和通信开销,本发明的主要步骤为:主要步骤如下:一种纵向联邦学习场景中高效的特征贡献评估方法,所述该方法包括三个模块:1)运算拆分2)MC采样近似3)通信聚合。
作为优选:所述运算拆分为根据SV,将特征i的贡献用边际增益期望的表示:E(i)=Ex[f(x∪i)-f(i)]。基于SV的评估满足公平性的需求。为了降低在线采样计算的通信开销,将f的运算拆分成只与参与方A(xA)有关和只与参与方B(xB)有关的两部分。该模块分为两步:一、交换运算顺序。首先根据期望运算的性质,和的期望等于期望的和:E(i)=Ex[f(x∪i)-f(x)]=Ex[f(x∪i)]-Ex[f(x)].然后,对f进行线性近似,得到交换运算顺序:二、线性近似由于逻辑回归模型f中包含非线性函数:sigmoid函数。对sigmoid函数在评估点x附近求导,作为泰勒近似的系数。当x=0时,其中z=θAxA+θBxB.然后将A、B的特征xA,xB带入展开式,得到模型近似结果和A,B双方特征的关系:将模型中的非线性运算用泰勒三阶展开近似。在计算的期望时,对于展开项中只与单个参与方特征有关的项(例如),直接由该参与方独立计算该项的期望。对于与双方特征都有关的项(例如),在假设双方特征独立的情况下,交换期望运算和项运算的顺序:拆分成两个只与单个参与方特征相关的项,并由相应的参与方独立计算其期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于德清阿尔法创新研究院,未经德清阿尔法创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011465467.5/2.html,转载请声明来源钻瓜专利网。





