[发明专利]一种敏感词过滤方法、装置、存储介质及电子设备在审
| 申请号: | 202111562611.1 | 申请日: | 2021-12-20 |
| 公开(公告)号: | CN114266247A | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 杨浩;丁祎文 | 申请(专利权)人: | 中国农业银行股份有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 李彩玲 |
| 地址: | 100005 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 敏感 过滤 方法 装置 存储 介质 电子设备 | ||
1.一种敏感词过滤方法,其特征在于,包括:
获取待处理的文本数据;
确定所述文本数据中包含的敏感词类别;
将所述文本数据输入至与所述敏感词类别对应的字典树模型中,在所述文本数据中查找与所述字典树模型匹配的目标敏感词;
过滤所述文本数据中的目标敏感词。
2.根据权利要求1所述的方法,其特征在于,在将所述文本数据输入至与所述敏感词类别对应的字典树模型中之前,还包括:
获取各个类型的敏感词库;
针对各个类型的敏感词库,基于当前类型的敏感词库构建对应的字典树模型;其中,将当前类型的敏感词库中的每个敏感词的首字符作为所述字典树模型的根节点,每个敏感词的其他字符作为所述字典树模型的叶子节点,其中,其他字符为每个敏感词中除所述首字符外的字符;当前类型的敏感词库中的每个敏感词的各个字符及所述各个字符的状态信息构成所述字典树模型中的键值对,其中,所述状态信息包括词首、词中和词尾。
3.根据权利要求2所述的方法,其特征在于,在将所述文本数据输入至与所述敏感词类别对应的字典树模型中,在所述文本数据中查找与所述字典树模型匹配的目标敏感词之前,还包括:
响应于各个类型的敏感词库的更新事件被触发,获取各个类型更新后的敏感词库;
针对各个类型的敏感词库,基于当前类型更新后的敏感词库对对应的字典树模型进行更新;
将所述文本数据输入至与所述敏感词类别对应的字典树模型中,在所述文本数据中查找与所述字典树模型匹配的目标敏感词,包括:
将所述文本数据输入至与所述敏感词类别对应的更新后的字典树模型中,在所述文本数据中确定与所述更新后的字典树模型匹配的目标敏感词。
4.根据权利要求1所述的方法,其特征在于,确定所述文本数据中包含的敏感词类别,包括:
将所述文本数据输入至预先训练的敏感词分类模型中,根据所述敏感词分类模型的输出结果,确定所述文本数据中包含的敏感词类别。
5.根据权利要求4所述的方法,其特征在于,所述敏感词分类模型包括Bert模型和分类器,所述Bert模型的输出端与所述分类器的输入端连接。
6.根据权利要求1所述的方法,其特征在于,在确定所述文本数据中包含的敏感词类别之前,还包括:
对所述文本数据进行预处理操作。
7.根据权利要求1-6任一所述的方法,其特征在于,所述文本数据为用于生成成长档案时发布的文本数据。
8.一种敏感词过滤装置,其特征在于,包括:
文本数据获取模块,用于获取待处理的文本数据;
敏感词类别确定模块,用于确定所述文本数据中包含的敏感词类别;
敏感词查找模块,用于将所述文本数据输入至与所述敏感词类别对应的字典树模型中,在所述文本数据中查找与所述字典树模型匹配的目标敏感词;
敏感词过滤模块,用于过滤所述文本数据中的目标敏感词。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-7中任一所述的敏感词过滤方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的敏感词过滤方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111562611.1/1.html,转载请声明来源钻瓜专利网。





