[发明专利]用于联邦学习的并行训练方法及系统有效
申请号: | 202110033547.1 | 申请日: | 2021-01-12 |
公开(公告)号: | CN112365006B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 彭瑞;陆万航;胡水海 | 申请(专利权)人: | 深圳致星科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/901 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市南山区粤海街道大冲社*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 联邦 学习 并行 训练 方法 系统 | ||
本申请涉及一种用于联邦学习的并行训练方法。该方法包括:获得第一参与方的私有数据和第二参与方的私有数据之间具有相同标志的交集;根据基于标志确定的映射方式得到关联数据集合;通过预设分组规则对第一参与方的硬件资源和第二参与方的硬件资源进行分组后分别得到第一参与方的硬件分组和第二参与方的硬件分组;分别获得关联数据集合和第一参与方的硬件分组之间的第一匹配关系以及关联数据集合和第二参与方的硬件分组之间的第二匹配关系;以及根据第一匹配关系和第二匹配关系,协同调动第一参与方的硬件资源和第二参与方的硬件资源,利用关联数据集合进行并行训练。
技术领域
本申请涉及数据处理及隐私保护技术领域,具体涉及一种用于联邦学习的并行训练方法及系统。
背景技术
随着大数据分析和人工智能技术的发展,对高质量标签数据的需求越来越大。例如,对神经网络进行训练以及进行数据挖掘都需要用到海量带有标签的数据。而这些带标签的数据往往来源于日常生活经营活动而产生和积累的应用数据。应用数据往往分散在不同的组织和个体手上,例如交易数据分散在各个金融机构,医疗诊断数据分散在各个医疗机构。另外跨行业跨领域的应用数据往往也是分散的,例如互联网领域的社交属性数据和电商交易数据往往由不同实体掌控。出于保护自身商业利益的目的,也基于数据安全、用户隐私保护以及各行业的政策法规标准不一等考量,掌握应用数据的各个组织或个体往往不愿意或者没有合适手段进行彼此之间的合作,从而很难让各自掌握的应用数据共同发挥作用。这种数据分享和协同合作方面的困境被称之为数据孤岛现象。为了解决跨行业跨组织的数据合作难题,尤其是关键的隐私保护及数据安全的问题,提出了联邦学习的概念。联邦学习指的是拥有数据的各个参与方,在无需共享数据资源且数据不出本地的前提下,通过加密的方式进行加密后数据的联合训练从而协同优化共享机器学习模型而实现多赢合作。
现有技术中,一般通过多个图形处理器GPU用于加速并行化计算多层神经网络,因为GPU的并行能力可以有效提高模型对于高度一致的并行数据的处理。例如,将训练数据按照不同的ID平均分配到各个GPU上进行训练,训练完成再进行模型聚合。但是,数据并行的方法只适用于横向联邦学习,即各方掌握着不同实体的相同类型的数据,并不适用于纵向联邦学习,即不同的实体对同一批用户拥有不同的信息。在纵向联邦学习的应用场景,不同实体之间掌握的数据具有深度的关联性,为此需要处理参与方的数据相关性问题,即实现相同个体的数据对齐,从而方便实现模型聚合。另外,现有技术中的数据并行的方法不能处理不同实体之间的硬件差异性问题。硬件差异指的是不同实体进行训练时采用的硬件上存在较大差异。例如,各个实体拥有的显卡在显存、算力乃至数量上会有较大的差异。因此在进行联邦学习的时候,需要考虑对共有的数据集进行平均分配。
为此,联邦学习相关应用场景需要一种技术手段能解决联邦学习的数据相关性问题和硬件差异性问题并且利于加速并行化训练多层神经网络。
发明内容
本申请的目的在于,为了解决纵向联邦学习的数据相关性问题和不同实体之间的硬件差异性问题,通过一种用于联邦学习的并行训练方法及系统,从而实现了跨平台跨实体的联邦学习下的并行训练。
第一方面,本申请实施例提供了一种用于联邦学习的并行训练方法。该方法包括:获得第一参与方的私有数据和第二参与方的私有数据之间具有相同标志的交集;根据基于所述标志确定的映射方式,将所述第一参与方的私有数据中与所述交集对应的部分和所述第二参与方的私有数据中与所述交集对应的部分均映射到关联数据集合;通过预设分组规则对所述第一参与方的硬件资源和所述第二参与方的硬件资源进行分组后分别得到所述第一参与方的硬件分组和所述第二参与方的硬件分组;分别获得所述关联数据集合和所述第一参与方的硬件分组之间的第一匹配关系以及所述关联数据集合和所述第二参与方的硬件分组之间的第二匹配关系;以及根据所述第一匹配关系和所述第二匹配关系,协同调动所述第一参与方的硬件资源和所述第二参与方的硬件资源,利用所述关联数据集合进行并行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110033547.1/2.html,转载请声明来源钻瓜专利网。