[发明专利]基于增量学习的本地差分隐私的多维数据发布方法及系统在审
申请号: | 202210699743.7 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115098882A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 郭山清;唐朋;胡程瑜;刘高源;金崇实 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
地址: | 266237 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增量 学习 本地 隐私 多维 数据 发布 方法 系统 | ||
1.基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,包括如下步骤:
通过聚合第一批用户扰动数据,学习所有属性对的相关性;
根据属性对的相关性构建依赖图模型,通过联结树算法将构建好的依赖图模型转化为多个团组成的联结树模型;
基于第二批用户数据,根据各个团包含的属性个数及大小类型,采用对应的估计方法对团的分布进行估计,得到联结树模型中各团的联合分布;
根据联结树模型及联结树模型中各团的联合分布,通过基于采样的数据生成方法,生成同样包含相同数量记录合成的数据集进行发布。
2.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,所述根据属性对的相关性构建依赖图模型,包括:
根据当前依赖图的边集采用基于增量学习的依赖图模型构造方法进行构造,包括:进行T轮迭代,在每次迭代中,分别对属性对的集合中剩余的每个属性对收集新的数据,重新估计这些属性对之间的相关性,采用基于阈值松弛的边缘剪枝方法剔除相关性较弱的属性对得到修剪后的边。
3.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,利用两个属性的互信息来度量属性对之间的相关性,所述属性对的互信息的计算公式为:
式中,Aj,Aj为属性对,分别为属性Ai,Aj的域,Pr(am)和Pr(an)分别表示中第m个值am的边际分布及中第n个值an的边际分布,Pr(am,an)表示am和an的联合分布。
4.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,采用基于阈值松弛的边缘剪枝方法剔除相关性较弱的属性对得到修剪后的边包括:
基于设定依赖度参数计算相关性阈值;
结合相关性阈值、给定置信水平和记录的属性对的互信息计算放缩的相关性阈值;
重新计算重新估计相关性,若如果属性对的相关性大于等于放缩的相关性阈值表示属性具有强相关性,在依赖图中保留边;反之,将该边从依赖图中删除。
5.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,所述根据各个团包含的属性个数及大小类型,采用对应的估计方法对团的分布进行估计,得到联结树模型中各团的联合分布,包括:
根据团的属性个数及大小类型,将所有团分为大团和小团两组;
采用前向搜索策略的启发式方法,确认最优分解顺序,按照最优顺序将大团进行分解得到条件分布;
基于第二批用户数据和条件分布,基于联合分布公式得到联结树模型中各团的联合分布。
6.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法,其特征在于,所述采用前向搜索策略的启发式方法,确认最优分解顺序,按照最优顺序将大团进行分解包括:
如果|Q|≤σ,从Q中随机选择一个属性Ah∈Q作为目标属性,令作为条件,即因子分解的第h项为条件分布
如果|Q|σ,对于以Aj为目标属性,使用最大冗余最小相关的特征选择方法,对属性集合Q\Aj进行冗余消除,得到消除冗余后的属性集合
根据计算得到的冗余消除结果,从中选择出令最小的Ah∈Q作为目标属性,令作为条件,则因子分解的第h项为条件分布并令Q=Q\Ah,
其中,|Q|表示当前属性集Q的域大小,σ为团大小阈值,为属性集Q中除属性Ah外的其他所有属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210699743.7/1.html,转载请声明来源钻瓜专利网。