[发明专利]基于文本生成对抗网络的个人数字空间数据脱敏的方法有效
| 申请号: | 202110199023.X | 申请日: | 2021-02-22 | 
| 公开(公告)号: | CN112861179B | 公开(公告)日: | 2023-04-07 | 
| 发明(设计)人: | 孙伟;官明哲;张武军 | 申请(专利权)人: | 中山大学 | 
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N3/0464;G06N3/048;G06N3/08 | 
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 | 
| 地址: | 510275 广东*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 文本 生成 对抗 网络 个人 数字 空间 数据 方法 | ||
本发明提供一种基于文本生成对抗网络的个人数字空间数据脱敏的方法,包括以下步骤:S1:获取个人数字空间中待脱敏处理的数据文件,构建文本生成对抗网络模型;S2:解析待脱敏处理的数据文件,得到包含敏感信息的解析文件;S3:将解析文件作为源数据输入文本生成对抗网络模型进行训练;S4:判断训练后的文本生成对抗网络模型是否收敛,若是,则得到与源数据具有相同统计特性的脱敏文本数据;若否,则返回步骤S3。本发明提供一种基于文本生成对抗网络的个人数字空间数据脱敏的方法,解决了现有的数据脱敏技术在医疗场景下应用时会改变医疗源数据的结构化格式的问题。
技术领域
本发明涉及数据脱敏处理技术领域,更具体的,涉及一种基于文本生成对抗网络的个人数字空间数据脱敏的方法。
背景技术
数据脱敏技术是一种可以通过对数据进行处理,从而达到降低和去除数据敏感程度的数据处理技术。采用数据脱敏技术,可以降低数据泄露的风险和危害,有效地保护用户数据的隐私。在互联网+医疗领域,用户可以通过个人数字空间存储、查看和分享个人医疗健康数据,但是个人的医疗数据在网上看病、网上购买药品、门诊预约等流程中会面临用户医疗敏感信息泄露的风险,而在医疗行业用户的数据具有极高的真实性和敏感性特点,一旦用户的个人敏感信息泄露可能会对用户本人造成潜在的生命威胁。借助数据脱敏,个人数字空间中的信息可以被用于业务相关的分析和处理,同时避免用户数据的泄露。
现有的数据脱敏方式常用掩盖或者泛化等方式,对隐私数据进行保护,同时也保持数据的可用性,使得脱敏后的数据能够继续用于开发测试、数据挖掘、数据分发等应用场景。数据替换,使用随机数据替换敏感信息中的数据;数据混洗,在源数据中进行行与行的交换;数值变换,指对年龄、时间等数值数据进行变换处理;数据遮挡,使用特殊符号如“*、NULL”等替换或更改敏感数据;数据删除,即敏感数据删除和清空;数据泛化,将数据从具体的维度用更模糊的维度表示,增大数据表示范围,消除敏感信息等。但是现有的数据脱敏技术在医疗场景下应用时会改变医疗源数据的结构化格式,无法满足医疗场景下用户的医疗敏感信息脱敏和保护的需求。
现有技术中,如2019年8月16日公开的中国专利,一种数据脱敏方法、装置、设备及计算机可读存储介质,公开号为CN110135193A,在最大化数据脱敏程度,保证隐私信息不被泄露的同时,有效提高脱敏后数据的实用性,但没有对完整序列进行评估,会改变源数据的结构化格式。
发明内容
本发明为克服现有的数据脱敏技术在医疗场景下应用时会改变医疗源数据的结构化格式的技术缺陷,提供一种基于文本生成对抗网络的个人数字空间数据脱敏的方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于文本生成对抗网络的个人数字空间数据脱敏的方法,包括以下步骤:
S1:获取个人数字空间中待脱敏处理的数据文件,
构建文本生成对抗网络模型;
S2:解析待脱敏处理的数据文件,得到包含敏感信息的解析文件;
S3:将解析文件作为源数据输入文本生成对抗网络模型进行训练;
S4:判断训练后的文本生成对抗网络模型是否收敛,
若是,则得到与源数据具有相同统计特性的脱敏文本数据;
若否,则返回步骤S3。
优选的,所述待脱敏处理的数据文件为基于分布式数据库中的半结构化医疗信息数据。
优选的,所述文本生成对抗网络模型包括生成器和判别器。
优选的,所述生成器采用循环神经网络生成序列。
优选的,所述判别器采用卷积神经网络判别所述生成器生成的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110199023.X/2.html,转载请声明来源钻瓜专利网。





