[发明专利]基于信用评估的面向联邦学习中毒攻击的防御方法有效
申请号: | 202010344204.2 | 申请日: | 2020-04-27 |
公开(公告)号: | CN111598143B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 陈晋音;张龙源 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06N20/00;G06Q40/02;G06Q30/06 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信用 评估 面向 联邦 学习 中毒 攻击 防御 方法 | ||
本发明公开了一种基于信用评估的面向联邦学习中毒攻击的防御方法,包括三个阶段:训练阶段,利用共享数据集中的训练集和边缘端的本地数据集进行训练,避免因数据没有独立同分布导致边缘端训练的模型较差,同时可利用共享数据集的测试集进行模型的第一轮信用评估;模型收集阶段,算出边缘端模型之间的L2距离,并根据距离进行第二轮信用评估;模型聚合阶段,使用替代模型进行聚合,并利用服务器端的测试集进行测试,根据在测试集的准确率进行第三轮的信用评估。根据信用得分,挑选合适的边缘端作为全局模型更新的来源,并在一定轮数后重新评估。可以挑选合适的边缘端进行训练,从而优化全局模型的训练过程。
技术领域
本发明属于机器学习领域,具体涉及一种基于信用评估的面向联邦学习中毒攻击的防御方法。
背景技术
在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
随着人工智能落地场景越来越丰富,多方整合数据从而为用户提供更好的服务迫切性非常高,尤其是在一些风控领域,特别需要联合多家企业的数据来打造更好的信用模型,从而提升用户贷款的效率,比如银行就非常需要运营商的通信数据、电商企业的交易数据来提升信用模型的质量。
如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。Google公司提出把研究的重点转移到如何解决数据孤岛的问题,提出一个满足隐私保护和数据安全的一个可行的解决方案,叫做联邦学习。联邦学习,一种先进的机器学习方法,可以利用来自多个节点(例如移动设备)的分布式个性化数据集,以改进服务器端模型的性能,同时提供隐私保护针对移动用户。
联邦学习的目的是解决数据孤岛的问题:它希望做到各个企业的自有数据不出本地,联邦系统可以通过加密机制下的参数交换方式,在不违反数据隐私保护法规的情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。
在联邦学习中,服务器端的模型数据在边缘段的移动设备上进行分发和维护。服务器端通过收集本地模型来更新全局模型,即使用其本地训练数据在移动设备进行更新并在每次迭代中上传到服务器端来训练全局模型。但是,不可靠数据同样可以由移动设备上传,导致联邦学习训练的全局模型无法达到预期的效果。例如数据中毒攻击或无意中喂入不满足要求的数据。因此,需要找出值得信赖的可靠的边缘端作为更新的来源十分重要。
发明内容
为了解决因为不良数据喂入(数据中毒,没有独立同分布的数据)导致的模型难以优化的问题,本发明提供了基于信用评估的面向联邦学习中毒攻击的防御方法,可以挑选合适的边缘端进行训练,从而优化全局模型的训练过程。
本发明的技术方案为:
一种基于信用评估的面向联邦学习中毒攻击的防御方法,实现所述防御方法的系统包括一个服务器和K个终端,所述防御方法包括:
(1)为服务器配置图像数据集Dglobal、验证图像数据集Dval以及共享图像数据集Dshare,利用所述图像数据集Dglobal训练初始化一个模型Gt;为每个终端配置一个本地图像数据集Dlocal;
(2)将所述当前模型Gt和所述共享图像数据集Dshare发送至每个终端,t表示当前迭代次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010344204.2/2.html,转载请声明来源钻瓜专利网。