[发明专利]诊疗数据去标识化方法、装置及查询系统有效
| 申请号: | 202111168142.5 | 申请日: | 2021-10-08 |
| 公开(公告)号: | CN113591154B | 公开(公告)日: | 2022-02-15 |
| 发明(设计)人: | 赖永航;陈栋栋;冯健 | 申请(专利权)人: | 青岛美迪康数字工程有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F21/60 |
| 代理公司: | 北京慧智兴达知识产权代理有限公司 11615 | 代理人: | 李丽颖 |
| 地址: | 266005 山东省青岛市*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 诊疗 数据 标识 方法 装置 查询 系统 | ||
本申请涉及一种诊疗数据去标识化方法、装置及查询系统,所述诊疗数据去标识化方法包括:根据预先调取的诊疗数据构建诊疗数据查询数据库;根据差分隐私算法,对所述诊疗数据查询数据库的数据表的敏感属性字段添加随机噪声;根据添加的随机噪声,对所述敏感属性字段去标识处理;对所述数据表的标识符字段进行加密处理;根据去标识处理和加密处理的数据表更新所述诊疗数据查询数据库。本申请既满足诊疗数据的差分隐私保护的隐秘性要求,同时保证了数据库中发布数据的可靠性,可以有效帮助临床科研工作者查询和收集以往病例、大数据分析及评估,为促进医疗数据统计的自动化,消除信息孤岛,提供决策支持建立打下良好基础。
技术领域
本发明涉及医疗数据处理技术领域,特别涉及一种诊疗数据去标识化方法、装置及查询系统。
背景技术
医疗大数据安全成为大数据时代医院管理的一大难题,各种数据泄漏事件时有发生。目前医疗大数据安全保护通常采用对患者检查重要信息进行匿名、脱敏等处理方式。但有目的的攻击者,仍可通过几个复合的已知条件查询,来定位锁定对象。如果脱敏字段太多,则又会失去科研价值。比如对性别、年龄、地区、检查部位、疾病字段进行直接脱敏处理,那么就无法对“肺部疾病在各地区、各年龄段、不同性别的发病率”的课题进行研究。
基于此,在医疗数据的挖掘过程有效保护敏感信息及个人隐私,是医疗行业数据挖掘研究亟待解决的问题。
发明内容
本发明实施例中提供一种诊疗数据去标识化方法、装置及查询系统,用以至少解决医疗数据挖掘过程中敏感信息及个人隐私的保护问题。
第一方面,本发明提供一种诊疗数据去标识化方法,所述诊疗数据去标识化方法包括:
根据预先调取的诊疗数据构建诊疗数据查询数据库;
根据差分隐私算法,对所述诊疗数据查询数据库的数据表的敏感属性字段添加随机噪声;
根据添加的随机噪声,对所述敏感属性字段去标识处理;
对所述数据表的标识符字段进行加密处理;
根据去标识处理和加密处理的数据表更新所述诊疗数据查询数据库。
可选地,所述对所述敏感属性字段的原始诊疗数据添加随机噪声包括:
对不同数据类型的敏感属性字段的原始诊疗数据采用不同噪声机制添加随机噪声。
可选地,所述对不同数据类型的敏感属性字段的原始诊疗数据采用不同噪声机制添加随机噪声包括:
对于数值类型的敏感属性字段的原始诊疗数据采用拉普拉斯机制添加随机噪声,对于非数值类型的敏感属性字段的原始诊疗数据采用指数机制添加随机噪声。
可选地,在所述敏感属性字段的原始诊疗数据为年龄数据时,所述对于数值类型的敏感属性字段的原始诊疗数据采用拉普拉斯机制添加随机噪声包括:
将年龄数据的集合分为多个年龄段;
分别统计每个年龄段的人数总量;
根据每个年龄段的人数总量,采用拉普拉斯机制对每个年龄段添加随机噪声;
如果每个年龄段添加随机噪声后的伪数据与每个年龄段的原始诊疗数据相符合时,对所述年龄数据的集合生成伪数据集;否则,根据预设的比例关系,在不同年龄段生成伪数据集。
可选地,所述诊疗数据去标识化方法还包括:
根据所述敏感属性字段的原始诊疗数据和所述敏感属性字段的伪数据的直方图分布,调整所述差分隐私算法的隐私保护预算参数;所述伪数据由原始诊疗数据添加随机噪声构成。
可选地,所述对所述数据表的标识符字段进行加密处理包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛美迪康数字工程有限公司,未经青岛美迪康数字工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111168142.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





