[发明专利]基于文本生成对抗网络的个人数字空间数据脱敏的方法有效
| 申请号: | 202110199023.X | 申请日: | 2021-02-22 |
| 公开(公告)号: | CN112861179B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 孙伟;官明哲;张武军 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 文本 生成 对抗 网络 个人 数字 空间 数据 方法 | ||
1.基于文本生成对抗网络的个人数字空间数据脱敏的方法,其特征在于,包括以下步骤:
S1:获取个人数字空间中待脱敏处理的数据文件,
构建文本生成对抗网络模型;所述文本生成对抗网络模型包括生成器和判别器;
S2:解析待脱敏处理的数据文件,得到包含敏感信息的解析文件;
S3:将解析文件作为源数据输入文本生成对抗网络模型进行训练;
在步骤S3中,结合Monte Carlo搜索的策略对文本生成对抗网络模型进行训练;
对文本生成对抗网络模型进行训练的具体步骤为:
将源数据的单词编码后得到的向量输入循环神经网络的嵌入层,得到嵌入层向量x1,...,xT,输出隐藏层向量h1,...,hT,得到
ht=R(ht-1,xt)
其中,ht-1是前一个状态的隐藏层向量,ht、xt分别是当前状态的隐藏层向量和嵌入层向量;t≤T,T为词向量序号,R为RNN网络;
将隐藏层向量通过循环神经网络的softmax层得到当前状态生成的序列Y1:t中yt的分布概率:
p(yt|x1,...,xt)=softmax(b+Wht)
其中,b为偏置向量,W为权重矩阵,yt为长度为t的序列;
对于当前句子的奖励Q,表示为Q=D(Y1:t)
对于一个n次的Monte Carlo搜索,表示为
运行Monte Carlo搜索的策略从当前状态到序列结束获得N次输出序列,从而获得更为准确的奖励Q,表示为
对于每个序列,将嵌入层向量x1,...,xT连接起来,表示当前的一个序列
其中,为按行连接操作;
通过卷积核ω对序列向量d1:T进行卷积操作
其中,为对应位置相乘,ρ为非线性函数,ci为卷积层的输出值;
经过池化层后得到向量c=max(c1,...,cT-l+1),通过全连接层的sigmoid函数输出该序列判别为“真实”的概率,即奖励Q;
根据奖励Q的高低来更新生成器的参数,从而减小生成句子的损失;经过循环训练使得判别器误差最小时模型收敛;
S4:判断训练后的文本生成对抗网络模型是否收敛,
若是,则得到与源数据具有相同统计特性的脱敏文本数据;
若否,则返回步骤S3。
2.根据权利要求1所述的基于文本生成对抗网络的个人数字空间数据脱敏的方法,其特征在于,所述待脱敏处理的数据文件为基于分布式数据库中的半结构化医疗信息数据。
3.根据权利要求1所述的基于文本生成对抗网络的个人数字空间数据脱敏的方法,其特征在于,所述生成器采用循环神经网络生成序列。
4.根据权利要求1所述的基于文本生成对抗网络的个人数字空间数据脱敏的方法,其特征在于,所述判别器采用卷积神经网络判别所述生成器生成的序列。
5.根据权利要求1所述的基于文本生成对抗网络的个人数字空间数据脱敏的方法,其特征在于,基于判别器的输出分布求二进制交叉熵得到当前句子的损失,具体为:令p为输出P的状态1的概率,1-p为输出P的状态0的概率,q为输入Q的状态1的概率,1-q为输入Q的状态0的概率,则P、Q的交叉熵为
H(P|Q)=-(p*logq+(1-p)log(1-q))。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110199023.X/1.html,转载请声明来源钻瓜专利网。





