[发明专利]基于异方差差分和K-匿名机制的医疗数据隐私保护方法有效
申请号: | 201811206205.X | 申请日: | 2018-10-18 |
公开(公告)号: | CN111027090B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 王英龙;孙宗锟;舒明雷;赵慧奇;崔焕庆;成曦;平永杰;燕婷 | 申请(专利权)人: | 山东科技大学;山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G16H10/60;G06K9/62 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 方差 匿名 机制 医疗 数据 隐私 保护 方法 | ||
一种基于异方差差分和K‑匿名机制的医疗数据隐私保护方法,通过引入差分隐私保护改善了K‑anonymity弱保护性的缺点,增强了数据的安全性;同时利用CART决策树计算出的各属性权重对不同属性进行异方差加噪,给予对最终分类结果影响力小的属性大噪音,给予对最终分类结果影响力大的属性小噪音,改变了传统统一加噪的方式,增强了数据的可用性;最后加入深度神经网络使得其数据可用性有了直观的展示。
技术领域
本发明涉及数据隐私及深度学习技术领域,具体涉及一种基于异方差差分和K-匿名机制的医疗数据隐私保护方法。
背景技术
智能医疗空前火热,医疗数据得到高价值的利用,同时由于医疗数据的价值,针对医疗数据的攻击方式和数量都大幅度增加,为了保护医疗数据不泄露个人隐私,在淘汰了拥有弱攻击模型的K-匿名等技术后,差分隐私保护进入人们的视野,它定义了强有力的攻击模型,增加了数据隐私安全的同时却降低了数据的可用性,如何在保证数据隐私安全的前提下保证数据的可用性成为一大焦点。同时因为医疗数据涉及过多隐私,处理不妥就进行数据发布会使得数据中包含的个人隐私信息大量泄漏,所以针对医疗数据发布的技术少之甚少,也使得开源的医疗数据库稀少,无法做到共享数据、共同研究。
发明内容
本发明为了克服以上技术的不足,提供了一种解决医疗数据隐私安全性和可用性之间的平衡,和医疗数据在保证隐私安全的情况下发布的基于异方差差分和K-匿名机制的医疗数据隐私保护方法。
本发明克服其技术问题所采用的技术方案是:
一种基于异方差差分和K-匿名机制的医疗数据隐私保护方法,包括如下步骤:
a)处理医疗数据,将医疗数据中的数据标识符删除,把医疗数据中的离散属性用固定整数表示,将医疗数据全部数字化后得到原始医疗数据D’;
b)将原始医疗数据D’作为训练数据,利用python的scikit-learn库,构建CART决策树,通过pydot库将生成的决策树导出为dot文件,根据导出的dot文件计算CART决策树的树深度m,初始化CART决策树权重,CART决策树的第y层权重为m-y,最后一层权重为0,原始医疗数据D’中具有n个属性类型通过x1,x2,x3...xn,根据各类属性所在的CART决策树中的层数计算n个属性类型x1,x2,x3...xn所占初始权重X1,X2,X3...Xn;
c)根据公式将初始权重X1,X2,X3...Xn进行归一化,得到各属性类型的最终权重,式中min(X)为初始权重X1,X2,X3...Xn中的最小值,max(X)为初始权重X1,X2,X3...Xn中的最大值;
d)用户自定义K-anonymity机制的隐私参数K,将原始医疗数据D’中除标签外所有离散属性进行泛化处理,其中泛化处理的步骤为;
d-1)创建空的待泛化队列W,将原始医疗数据D’中除标签外所有离散属性加入待泛化队列W;
d-2)从待泛化队列W中选取一个待泛化的属性,依据选取的待泛化的属性对原始医疗数据D’进行属性泛化分裂,得到新的属性值组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学;山东省计算中心(国家超级计算济南中心),未经山东科技大学;山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811206205.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于均力免震法的玉米秸秆还田机
- 下一篇:一种多功能乡村建设监测系统