[发明专利]敏感词屏蔽质量评估模型的训练方法及相应的评估方法有效
| 申请号: | 202110924568.2 | 申请日: | 2021-08-12 |
| 公开(公告)号: | CN113642739B | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 李东海;石崇德;侯晓焱 | 申请(专利权)人: | 北京华宇元典信息服务有限公司;清华大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F40/289;G06F40/30;G06Q50/18 |
| 代理公司: | 北京唐颂永信知识产权代理有限公司 11755 | 代理人: | 刘伟 |
| 地址: | 100080 北京市海淀区西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 敏感 屏蔽 质量 评估 模型 训练 方法 相应 | ||
本申请涉及一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备。该敏感词屏蔽质量评估模型的训练方法,包括:步骤1:基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;步骤2:使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;步骤3:屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;步骤4:随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,步骤5:迭代执行所述步骤2到步骤4直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。这样,提升了敏感词屏蔽质量的评估准确性。
技术领域
本申请涉及文本处理技术领域,更为具体地说,涉及一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备。
背景技术
在法律文书中会存在一些敏感词,比如部分疾病(如艾滋病、乙肝等)的信息。为了保护个人隐私,在法律文书的公开过程中需要对这些词进行屏蔽。
但是,法律文书在描述这些敏感词时,例如在描述病情时,往往并不是简单的提到疾病,而是有大量相关的诊断记录等,使得仅屏蔽疾病名称往往并不能限制读者获取疾病信息。因此,需要对法律文书中的敏感词的屏蔽质量进行评估,在不影响阅读的情况下屏蔽足够多的相关信息,更好地保护相关人员隐私信息。
因此,期望提供一种改进的敏感词屏蔽质量评估方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种敏感词屏蔽质量评估模型的训练方法、装置、敏感词屏蔽质量评估方法、装置和电子设备,其能够在敏感词屏蔽质量评估模型恢复出的敏感词的基础上进一步提取与敏感词关联的支撑词,从而提升敏感词屏蔽质量的评估准确性。
根据本申请的一方面,提供了一种敏感词屏蔽质量评估模型的训练方法,包括:步骤1:基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料;步骤2:使用所述预训练语料对所述敏感词屏蔽质量评估模型进行预训练;步骤3:屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词;步骤4:随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型;以及,步骤5:迭代执行所述步骤2到步骤4直到所述敏感词屏蔽质量评估模型获得的敏感词和支撑词的结果稳定。
在上述敏感词屏蔽质量评估模型的训练方法中,基于敏感词所属领域的文书获取敏感词屏蔽质量评估模型的预训练语料包括:获取所述敏感词所属领域的文书;对所述文书进行中文分词;以及,随机屏蔽所述文书中的一部分词以获得所述敏感词屏蔽质量评估模型的预训练语料。
在上述敏感词屏蔽质量评估模型的训练方法中,屏蔽训练用法律文书中的敏感词并以所述敏感词屏蔽质量评估模型恢复敏感词和提取支撑词包括:确定所述敏感词屏蔽质量评估模型恢复出的第一敏感词与所述法律文书中屏蔽的第二敏感词是否相同;响应于所述第一敏感词与所述第二敏感词相同,计算所述第一敏感词中的每个恢复的字的注意力信息;以及,基于所述注意力信息确定所述第一敏感词的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词包括:基于所述注意力信息确定每个恢复的字的预定数目的信息源位置;确定所述第一敏感词中的各个恢复的字的信息源的交集或者并集;以及,基于所述信息源的交集或者并集中的每个信息源的信息源位置确定单个句子中的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,基于所述注意力信息确定所述第一敏感词的支撑词进一步包括:确定所述第一敏感词在不同句子中的支撑词;以及,基于所述不同句子中的支撑词的词频统计,确定词频大于预定阈值的支撑词为所述第一敏感词的支撑词。
在上述敏感词屏蔽质量评估模型的训练方法中,随机屏蔽所述敏感词和/或所述支撑词并训练所述敏感词屏蔽质量评估模型包括:确定同时具有敏感词和支撑词的句子;以及,屏蔽所述句子中的敏感词和支撑词之一以作为所述敏感词屏蔽质量评估模型的训练语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇元典信息服务有限公司;清华大学,未经北京华宇元典信息服务有限公司;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110924568.2/2.html,转载请声明来源钻瓜专利网。





