[发明专利]面向大数据分析的隐私保护聚类方法及计算机存储介质在审

专利信息
申请号: 201910565540.7 申请日: 2019-06-27
公开(公告)号: CN110334757A 公开(公告)日: 2019-10-15
发明(设计)人: 徐小龙;范泽轩;孙雁飞 申请(专利权)人: 南京邮电大学
主分类号: G06K9/62 分类号: G06K9/62;G06F21/62
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210012 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种面向大数据分析的隐私保护聚类方法及计算机存储介质,方法包括以下步骤:数据归一化和选取中心点、计算最小隐私预算并分配隐私预算序列、划分样本点到最近的中心点、生成拉普拉斯噪声、在更新中心点的过程中向其中的参数添加噪声、不断迭代直到相邻两次迭代的误差平方和之差小于阈值或者达到最大迭代次数。本发明通过向聚类算法执行过程中的中间参数添加服从拉普拉斯分布的噪声来保护数据集中的敏感信息,解决了聚类算法执行过程中泄露数据集敏感信息的问题,改进了差分隐私保护聚类算法的隐私预算分配的方式,在相同隐私保护程度下提高了聚类结果的可用性,解决大数据聚类挖掘中的隐私泄露问题。
搜索关键词: 隐私保护 聚类算法 大数据 中心点 迭代 聚类 噪声 计算机存储介质 隐私 敏感信息 拉普拉斯分布 数据归一化 误差平方和 可用性 参数添加 聚类结果 数据集中 隐私泄露 预算分配 中间参数 数据集 样本点 预算 泄露 分析 挖掘 分配 更新 改进
【主权项】:
1.一种面向大数据分析的隐私保护聚类方法,其特征在于,包括以下步骤:(1)对数据集中的数据进行归一化处理;(2)将数据集平均分为k个子集,在每个子集中随机选择一个样本点作为初始中心点;(3)设置总隐私预算ε和最大迭代次数tm,计算最小隐私预算εm和迭代次数t=ε/εm,如果t>tm,则采用等差隐私预算分配方法来分配隐私预算序列,如果t≤tm,则采用平均隐私预算分配方法来分配隐私预算序列,得到隐私预算序列εp,其中1≤p≤tm;(4)对于数据集中的所有样本点,分别计算其到k个中心点的欧氏距离,将样本点分配给最近的中心点,将数据集划分为k个聚类C={C1,C2,…,Ck};(5)根据隐私预算序列εp中对应的项生成拉普拉斯分布的随机数;(6)对于每一个聚类Cj,其中1≤j≤k,计算该聚类样本点数目num以及样本点的和向量sum,分别对其添加噪声得到num′和sum′,上述噪声为步骤(5)中拉普拉斯分布的随机数;(7)更新每一个聚类Cj的中心点为sum′/num′,其中1≤j≤k;(8)计算误差平方和,如果本次和前次迭代的误差平方和的差的绝对值小于设置阈值或者迭代次数达到上限tm,则结束执行,得到聚类结果,否则转到步骤4继续执行下一次迭代。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910565540.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top