[发明专利]反命名实体识别的编码器对抗训练、隐私保护方法及装置在审
申请号: | 202011173866.4 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112199955A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 刘杰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 编码器 对抗 训练 隐私 保护 方法 装置 | ||
说明书实施例提供了一种反命名实体识别的编码网络训练、隐私保护方法及装置,该方法包括:获取第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对其中命名实体的标注标签;对各第一样本,将其对应的原始文本输入编码网络,获得其特征文本;将特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;将特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;根据原始文本和特征文本,确定比较损失;确定编码损失,编码损失与比较损失正相关,与识别损失和重构损失负相关;以编码损失趋于减少为目标,更新编码网络。
技术领域
本说明书一个或多个实施例涉及机器学习领域和数据安全领域,尤其涉及一种反命名实体识别的编码网络训练、隐私保护方法及装置。
背景技术
文字作为人类记录思想和语言的载体,往往蕴涵着丰富的劳动价值和重要的个人信息。比如个人记事本往往会记录一些个人姓名,手机号,地址,公司等信息,一些人的聊天的文字记录等也会保留关于个人的社交活动等隐私信息。随着人工智能技术的发展,命名实体识别技术很容易解析这些文字中出现的专有名词,比如人名,地名,机构名,时间日期等等。然而,这也给个人隐私带来了威胁。命名实体识别技术(NER)可以轻易将个人的信息从一大段文本中解析出来,并且准确的识别个人的姓名,手机号,地址,公司等信息,从而获取个人隐私。所以,如何将文本信息中的敏感信息匿名化,并且不影响用户方便的理解自己的文字内容,成为了各个企业关注的焦点。
发明内容
本说明书中提供的实施例旨在提供更有效的反命名实体识别的隐私保护的方法,解决现有技术中的不足
根据第一方面,提供了一种反命名实体识别的编码网络的训练方法,所述方法包括:
获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签;
对于各个第一样本,将所述第一样本对应的原始文本输入编码网络,获得其特征文本;
将所述特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;
将所述特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;
根据原始文本和特征文本,确定比较损失;
确定编码损失,所述编码损失与所述比较损失正相关,与所述识别损失和所述重构损失负相关;
以所述编码损失趋于减少为目标,更新所述编码网络。
在一个实施例中,所述命名实体识别网络模型,包括第三方命名实体识别网络模型;
所述将所述特征文本输入命名实体识别网络模型,获得针对命名实体进行识别的识别结果,包括,将所述特征文本输入第三方命名实体识别网络模型的访问接口,获取所述识别结果。
在一个实施例中,所述重构网络为预先训练的重构网络。
在一个实施例中,所述训练方法还包括:以重构损失趋于减少为目标,更新重构网络。
在一个实施例中,所述编码网络基于卷积神经网络、长短期记忆模型中的一种。
在一个实施例中,所述重构网络模型基于循环神经网络。
在一个实施例中,所述根据识别结果和第一样本对应的标注标签,确定识别损失,包括,根据识别结果和所述标注标签之间的第一文本编辑距离,确定识别损失,所述识别损失与该第一文本编辑距离正相关;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011173866.4/2.html,转载请声明来源钻瓜专利网。