[发明专利]一种智能敏感字词识别系统在审
申请号: | 202110490284.7 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113177409A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 项超 | 申请(专利权)人: | 上海慧洲信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京高航知识产权代理有限公司 11530 | 代理人: | 乔浩刚 |
地址: | 200120 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 敏感 字词 识别 系统 | ||
1.一种智能敏感字词识别系统,其特征在于,包括:获取模块、文本识别模块和图片识别模块;其中,
获取模块用于使用网络爬虫对目标网页的文本和图片进行抓取,获取目标网页的文本信息和图片信息;
文本识别模块用于对获取的文本信息进行预处理,对预处理后的文本信息进行敏感词识别处理,获取文本敏感词识别结果;
图片识别模块用于对获取的图片信息进行预处理,对预处理后的图片信息进行文本提取,并根据提取的文本信息进行敏感词识别处理,获取图片敏感词识别结果。
2.根据权利要求1所述的一种智能敏感字词识别系统,其特征在于,还包括处理模块;其中,
处理模块用于当识别到目标网页包含敏感信息时,屏蔽该敏感信息。
3.根据权利要求1所述的一种智能敏感字词识别系统,其特征在于,获取模块包括文字获取单元和图片获取单元;其中,
文字获取单元用于获取目标网页中的文本信息;
图片获取单元用于获取目标网页中的图片信息。
4.根据权利要求3所述的一种智能敏感字词识别系统,其特征在于,文本识别模块,具体包括:分词单元、主题分类单元和识别单元;其中,
分词单元用于对获取的网页文本信息进行分词处理,将网页文本信息拆分成由若干个单词组成的词向量集;
主题分类单元用于根据获取的词向量集进行主题分类识别,获取该词向量集的主题分类标签;其中主题分类标签包括:体育、教育、游戏、政府和企业的不同主题的标签,每个主题分类标签对应设置有对应的敏感词库;
识别单元用于根据该词向量集的主题分类标签,调用相应的基于深度学习的敏感词识别模型对该词向量集进行敏感词识别,输出文本敏感词识别结果;其中调用的敏感词识别模型由根据与该主题分类标签对应的敏感词库训练所得。
5.根据权利要求3所述的一种智能敏感字词识别系统,其特征在于,图片识别模块,具体包括:图片文本提取单元、图片文本识别单元和图片敏感文本识别单元;其中,
图片文本提取单元用于对获取的目标网页中的网页图片进行文本识别,并对图片中的文本部分进行定位,并根据文本部分的定位从该图片中分割出文本部分图片;
图片文本识别单元用于根据获取的文本部分图片,基于卷积神经网络CNN模型对该文本部分图片进行文本识别处理,输出该文本部分图片对应的图片文本信息;
图片敏感文本识别单元用于根据获取的图片文本信息,基于训练好的SVM分类器对该图片文本信息进行敏感信息识别处理,输出图片敏感词识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海慧洲信息技术有限公司,未经上海慧洲信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110490284.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗菌免喷涂塑料、生产装置及加工方法
- 下一篇:肾内科护理辅助装置