[发明专利]一种NLP文本安全审核多级检索系统在审
申请号: | 202111473148.3 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114579693A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 曾锐鸿;马金龙;熊佳;王伟喆;吴文亮;罗箫;盘子圣;焦南凯;黎子骏;徐志坚;谢睿;陈光尧 | 申请(专利权)人: | 广州趣丸网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/284;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李秋梅 |
地址: | 510000 广东省广州市天河区平云路1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 nlp 文本 安全 审核 多级 检索系统 | ||
本发明公开了一种NLP文本安全审核多级检索系统,利用压缩前缀树的数据结构进行数据的存储和查找,查询速度快,且内存占用比使用字典树数据结构降低了两千多倍,关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构,查询准确率高,既能覆盖到显性敏感词的搜索,同时能从语义上进行文本内容安全审核,在准确率、容错率以及覆盖率上都有保障,又能提高系统的模型泛化能力,解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题的技术问题。
技术领域
本发明涉及文本安全审核技术领域,尤其涉及一种NLP文本安全审核多级检索系统。
背景技术
文本内容安全审核本质上是一个文本分类问题,也就是给定一个文本,然后给出这个文本的安全意图是什么,这里的安全意图就是文本标签。NLP 文本安全审核系统主要用于在用户文本聊天中做安全审核,审核的领域一般有广告、黑名单和违禁等。在现有的NLP文本安全审核系统中,使用Trie树、句子相似度匹配以及深度学习文本分类模型三种组合技术做层级搜索,同时匹配了定制化的文本前预处理技术。Trie树的数据结构优点是查询速度非常快,但问题在于存储空间非常大,意味着服务器的内存成本会非常高,因而不便于在同一台服务器上大规模部署,在性能上难以达到最优,且深度学习文本分类模型容易因样本的多样性和数量不足,在模型泛化能力上会有限制以及在预测准确性上不稳定。因此,本发明中提供了一种NLP文本安全审核多级检索系统,用于解决现有的NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题。
发明内容
本发明提供了一种NLP文本安全审核多级检索系统,用于解决现有的 NLP文本安全审核系统使用Trie树的数据结构进行存储,占用存储空间大,增加了服务器的内存成本,不便于在同一台服务器上大规模部署,在性能上难以达到最优,以及模型泛化能力受限制,预测准确性不稳定的技术问题。
有鉴于此,本发明提供了一种NLP文本安全审核多级检索系统,包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块;
环境检查模块用于对运行环境和数据库进行预检查和预加载;
文本预处理模块用于对文本数据进行预处理,去除冗余无效信息;
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块;
关键词匹配子模块采用压缩前缀树进行数据存储和查找;
句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用,句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块,弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索,分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词;
文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用,采用预置文本分类深度学习模型进行文本分类;
结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。
可选地,句子相似度匹配子模块还包括:
句子差异性计算子模块,用于计算查询文本和结果文本集合的最小编辑距离,根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。
可选地,预置文本分类深度学习模型为浅层神经网络,浅层神经网络包括输入层、隐藏层和输出层。
可选地,结果解析模块具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州趣丸网络科技有限公司,未经广州趣丸网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473148.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金花菌及其在茯茶加工中的应用
- 下一篇:树脂组合物