[发明专利]MapReduce框架下决策树的差分隐私保护方法有效

专利信息
申请号: 202010043937.2 申请日: 2020-01-15
公开(公告)号: CN111259442B 公开(公告)日: 2022-04-29
发明(设计)人: 王金艳;颜奇;李先贤 申请(专利权)人: 广西师范大学
主分类号: G06F21/62 分类号: G06F21/62;G06N20/00
代理公司: 桂林市持衡专利商标事务所有限公司 45107 代理人: 陈跃琳
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: mapreduce 框架 决策树 隐私 保护 方法
【权利要求书】:

1.MapReduce框架下决策树的差分隐私保护方法,其特征是,包括步骤如下:

步骤1、初始化:给定决策树最大深度h和不相交子集的个数m,令当前决策树深度j=0,令集合Ωj为原始数据集,并将原始数据集中的所有条件属性归入条件属性集;

步骤2、将集合Ωj中的一个数据集视为当前数据集,将当前数据集划分为m个不相交的子集;

步骤3、对于当前数据集的每个子集:计算该子集中的每个条件属性和决策属性之间的皮尔逊相关系数,并据此计算该子集的子集最佳分裂点;同时,统计该子集的子集类分布;

步骤4、基于步骤3所得的每个子集的子集最佳分裂点,计算当前数据集的平均最佳分裂点;同时,基于步骤3所得的每个子集的子集类分布,统计当前数据集的总类分布;

步骤5、基于步骤3所得的m个子集中每个条件属性和决策属性之间的皮尔逊相关系数,计算每个条件属性在当前数据集的平均皮尔逊相关系数;然后将每个条件属性的平均皮尔逊相关系数作为其质量函数,利用指数机制挑选出输出概率最大的条件属性作为当前最佳分裂属性,该条件属性在当前数据集中所对应的平均最佳分裂点作为当前最佳分裂点;其中第k个条件属性Ak的输出概率为:

其中,q(Ak)为质量函数,Δq为质量函数的敏感度,ε1为分配的隐私预算,n为条件属性的个数;

步骤6、判断步骤4所得的当前数据集的总类分布是否仅包含一个类别,或者当前决策树深度j是否等于决策树最大深度h:

如果是,则不再划分当前数据集,并对当前数据集的类计数添加拉普拉斯噪声,且将当前数据集移出集合Ωj,然后进一步判断集合Ωj是否为空:如果是,则转至步骤7;否则,继续返回步骤2开始处理集合Ωj中的下一个数据集;

否则,将当前决策树深度j加1,并在集合Ωj下生成两个空的数据集X<j,0>和X<j,1>;然后基于当前最佳分裂点对当前数据集中的各个样本进行划分:当样本的当前最佳分裂属性所对应的属性值大于当前最佳分裂点时,则将该样本划分到集合Ωj中的数据集X<j,1>中;否则,将该样本划分到集合Ωj中的数据集X<j,0>中;之后将当前数据集移出集合Ωj-1,同时将当前最佳分裂属性移出条件属性集;最后进一步判断条件属性集是否为空:如果是,则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;

步骤7、先将当前决策树深度j减1,再判断当前决策树深度j是否为0:如果是,将转至步骤9;否则转至步骤8;

步骤8、判断集合Ωj是否为空:如果是,则转至步骤7;否则,进一步判断条件属性集是否为空:如果是:则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;

步骤9、返回最终的类计数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010043937.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top