[发明专利]一种纵向数据融合的隐私计算方法及系统有效
申请号: | 202210504887.2 | 申请日: | 2022-05-10 |
公开(公告)号: | CN115130814B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 赵张梦茹;马骏;王向阳;李沛哲;谭祺龙;刘彤;吕丰 | 申请(专利权)人: | 中南大学;湖南能源大数据中心有限责任公司 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06Q50/06;G06F18/25;G06N20/00 |
代理公司: | 长沙朕扬知识产权代理事务所(普通合伙) 43213 | 代理人: | 何湘玲 |
地址: | 410083 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 纵向 数据 融合 隐私 计算方法 系统 | ||
本发明公开了一种纵向数据融合的隐私计算方法及系统,用于电力数据和移动人口数据的融合,该方法包括:输入想要评价的商圈的地理位置和时间段,中心服务器将所述任务模型拆解为若干个子任务;其中每个子任务,最多仅需要一个数据中心的原始数据;将各子任务分配至所需的原始数据对应的数据中心进行计算;各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重,结合本地商圈的电力数据和移动人口数据计算出子任务结果并上传至中心服务器;中心服务器将各数据中心的上传的子任务结果进行融合,得到商圈活跃度隐私计算的最终结果。本发明运用纵向联邦,科学合理地分析商圈的经济活跃性。
技术领域
本发明涉及数据联邦和安全计算领域,尤其涉及一种纵向融合电力及移动人口数据的隐私计算方法及系统。
背景技术
如今,互联网已经实现了从IT(internet Technology,互联网技术)时代到DT(Data Technology,数据处理技术)时代的转变,数据已经成为DT时代企业的核心竞争力。而数据作为一种新型生产要素,只有流通起来才能创造更大的价值。打破固有思路,让多方大数据的进行合理融合这一举动蕴藏着极大的潜力。在给企业和用户带来利益的同时,也为社会数据资源的利用带来了新的思路。不过,大多数企业甚至同一个企业的不同部门考虑到利益交换、数据安全和个人隐私等问题,对数据共享非常谨慎,从而造成了“数据孤岛”的现象。不同部门的数据孤岛林立,数据壁垒难以解决,不利于大数据的数字化和信息化建设向更多领域和更深层次的发展。因此,急需利用现有的分布式联邦学习技术,探索安全可靠的数据共享方案,搭建多方安全计算平台,打破“数据孤岛”,在保护数据隐私安全的前提下,实现数据可用不可见情况下的有效融合。
联邦学习是当下常见的用于解决数据孤岛的方法。其最早是在2016年由谷歌提出,原本用于解决安卓手机终端用户在本地更新模型的问题。联邦学习本质上是一种分布式机器学习技术或机器学习框架。其目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。假设把每个参与共同建模的企业称为参与方,根据多参与方之间数据分布的不同,联邦学习被分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)。纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景。近年来,联邦学习在理论发展的同时,其技术在工业界也逐渐开始实践。目前最主要的有三个框架:1)2019年1月,谷歌发布了TensorFlow 2.0Alpha版本,其中包括特性TFF(TensorFlowFederated,张量流联邦)。各个终端计算本地梯度,并发送到中心服务器Server做FedAvg(联邦平均算法),Server聚合梯度后更新模型,并推送给各终端。但是该框架仅支持横向联邦;2)百度PaddlePaddle机器学习框架发布的PaddleFL联邦学习模块,其利用开源FedAvg和基于差异性隐私的SGD算法来实现,思路与TFF类似,需要中心角色辅助;3)微众银行WeBank提出了FATE(Federated AI Technology Enabler,联邦人工智能技术使能器)联邦学习框架,FATE采用Python语言开发,同时支持横向和纵向联邦,底层基于EggRoll分布式,可视化界面等周边比较完善。但从实际测试看,仍然存在一些问题:首先在模型上,FATE需要一个可信第三方来协调完成数据的加密解密过程,这在实际应用场景中通常不可行;其次在性能和稳定方面,FATE的训练样本ID和模型全部存放在中心节点上,受单点机器资源的限制,无法支持大数据量。
针对上述问题,本发明设计和实现一种面向电力数据和移动人口数据的纵向数据融合的隐私计算方法及系统,以改进数据融合思路、方法以及联邦平台的搭建。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学;湖南能源大数据中心有限责任公司,未经中南大学;湖南能源大数据中心有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210504887.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置