[发明专利]基于增量学习的本地差分隐私的多维数据发布方法及系统在审

申请号：	202210699743.7	申请日：	2022-06-20
公开（公告）号：	CN115098882A	公开（公告）日：	2022-09-23
发明（设计）人：	郭山清;唐朋;胡程瑜;刘高源;金崇实	申请（专利权）人：	山东大学
主分类号：	G06F21/62	分类号：	G06F21/62;G06K9/62
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	李琳
地址：	266237 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于增量学习本地隐私多维数据发布方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于数据安全与隐私保护领域，提供了基于增量学习的本地差分隐私的多维数据发布方法及系统，通过聚合第一批用户扰动数据，学习所有属性对的相关性；根据属性对的相关性构建依赖图模型，通过联结树算法将构建好的依赖图模型转化为多个团组成的联结树模型；基于第二批用户数据，根据各个团包含的属性个数及大小类型，采用对应的估计方法对团的分布进行估计，得到联结树模型中各团的联合分布；根据联结树模型及联结树模型中各团的联合分布，通过基于采样的数据生成方法，生成同样包含相同数量记录合成的数据集进行发布。

技术领域

本发明属于数据安全与隐私保护领域，尤其涉及基于增量学习的本地差分隐私的多维数据发布方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在本地化差分隐私的多维数据发布问题中，每个用户个体拥有一条包含多个离散属性(连续属性通过将域离散为固定数量的等宽范围转化为离散属性)的记录，比如人口普查数据等。实际应用中，数据分析师希望可以在数据集上进行任意类型的数据分析或挖掘，以挖掘或提取数据背后的大量潜在信息，为群体和个体提供准确可靠的预测。因此聚合服务器需要收集所有用户个体所拥有的数据并对外发布。

然而，数据中往往包含用户个体的敏感信息，用户不太会想要分享个人的真实数据给任何第三方数据收集者。因此，需要解决满足本地化差分隐私的多维数据发布方法。

本地化差分隐私作为一种严格的、可量化的隐私保护模型，该模型不依赖与任何宣称自己是可信的第三方实体，从用户个体的角度出发对每个用户的真实数据提供隐私保护，即便第三方聚合服务器是恶意的，也能够保证用户个体的隐私不被泄露。在该模型中，用户在本地对自己的真实数据添加一定规模的噪声进行扰动，然后将扰动后的数据上传给聚合服务器。聚合服务器在收到所有用户上传的扰动数据后，只能通过计算得到一些统计信息，而无法从中推测出任何关于用户的个人敏感信息。

基于该模型，现有工作提出了一些方案来解决该问题。在现有工作中，聚合服务器首先一次性的收集所有用户的完整数据。为了在满足本地化差分隐私的同时支持后续的所有计算，每个用户需要对自己的整条记录进行扰动，并将扰动后的结果发送给聚合器进行聚合。聚合服务器通过聚合用户上传的扰动数据，使用Expectation Maximization算法为构造概率图模型及数据生成提供任意所需的分布信息，即所有属性对的联合分布信息及联结树中各个团的分布信息。

然而上述方法存在以下技术问题：

(i)在构建概率图模型时，需要计算所有的成对属性的相关性来确定依赖图的结构。然而对于多维数据，存在大量的属性对。为满足本地化差分隐私，直接计算所有这些成对属性的关联关系会导致大量的噪声注入到结果中，这严重降低了依赖图结构和合成数据的准确性。

(ii)在对联结树的团的分布进行估计时，某些大团中可能包含属性过多，在计算其分布时仍面临高维的问题，并不能很好地解决。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于增量学习的本地差分隐私的多维数据发布方法及系统，其通过基于增量学习的方法构建概率图模型，然后利用概率图形模型生成一组带有噪音的低维分布，然后使用它们来近似输入数据集的整体分布以生成合成数据集。本发明相对于已有的方法，能够为每个用户个体提供隐私保护的同时，显著提高发布数据的精度。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于增量学习的本地差分隐私的多维数据发布方法，包括如下步骤：

通过聚合第一批用户扰动数据，学习所有属性对的相关性；

根据属性对的相关性构建依赖图模型，通过联结树算法将构建好的依赖图模型转化为多个团组成的联结树模型；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210699743.7/2.html，转载请声明来源钻瓜专利网。

上一篇：退役组件高值回收系统及回收方法
下一篇：高动态范围图像生成方法、装置、设备及可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于增量学习的本地差分隐私的多维数据发布方法及系统在审

专利文献下载