[发明专利]MapReduce框架下决策树的差分隐私保护方法有效
| 申请号: | 202010043937.2 | 申请日: | 2020-01-15 |
| 公开(公告)号: | CN111259442B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 王金艳;颜奇;李先贤 | 申请(专利权)人: | 广西师范大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N20/00 |
| 代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
| 地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | mapreduce 框架 决策树 隐私 保护 方法 | ||
1.MapReduce框架下决策树的差分隐私保护方法,其特征是,包括步骤如下:
步骤1、初始化:给定决策树最大深度h和不相交子集的个数m,令当前决策树深度j=0,令集合Ωj为原始数据集,并将原始数据集中的所有条件属性归入条件属性集;
步骤2、将集合Ωj中的一个数据集视为当前数据集,将当前数据集划分为m个不相交的子集;
步骤3、对于当前数据集的每个子集:计算该子集中的每个条件属性和决策属性之间的皮尔逊相关系数,并据此计算该子集的子集最佳分裂点;同时,统计该子集的子集类分布;
步骤4、基于步骤3所得的每个子集的子集最佳分裂点,计算当前数据集的平均最佳分裂点;同时,基于步骤3所得的每个子集的子集类分布,统计当前数据集的总类分布;
步骤5、基于步骤3所得的m个子集中每个条件属性和决策属性之间的皮尔逊相关系数,计算每个条件属性在当前数据集的平均皮尔逊相关系数;然后将每个条件属性的平均皮尔逊相关系数作为其质量函数,利用指数机制挑选出输出概率最大的条件属性作为当前最佳分裂属性,该条件属性在当前数据集中所对应的平均最佳分裂点作为当前最佳分裂点;其中第k个条件属性Ak的输出概率为:
其中,q(Ak)为质量函数,Δq为质量函数的敏感度,ε1为分配的隐私预算,n为条件属性的个数;
步骤6、判断步骤4所得的当前数据集的总类分布是否仅包含一个类别,或者当前决策树深度j是否等于决策树最大深度h:
如果是,则不再划分当前数据集,并对当前数据集的类计数添加拉普拉斯噪声,且将当前数据集移出集合Ωj,然后进一步判断集合Ωj是否为空:如果是,则转至步骤7;否则,继续返回步骤2开始处理集合Ωj中的下一个数据集;
否则,将当前决策树深度j加1,并在集合Ωj下生成两个空的数据集X<j,0>和X<j,1>;然后基于当前最佳分裂点对当前数据集中的各个样本进行划分:当样本的当前最佳分裂属性所对应的属性值大于当前最佳分裂点时,则将该样本划分到集合Ωj中的数据集X<j,1>中;否则,将该样本划分到集合Ωj中的数据集X<j,0>中;之后将当前数据集移出集合Ωj-1,同时将当前最佳分裂属性移出条件属性集;最后进一步判断条件属性集是否为空:如果是,则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;
步骤7、先将当前决策树深度j减1,再判断当前决策树深度j是否为0:如果是,将转至步骤9;否则转至步骤8;
步骤8、判断集合Ωj是否为空:如果是,则转至步骤7;否则,进一步判断条件属性集是否为空:如果是:则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;
步骤9、返回最终的类计数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043937.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种增强现实的高拟真VR系统
- 下一篇:虚拟道具的操作方法和装置及存储介质





