[发明专利]一种对互联网信息进行涉密涉敏信息监测方法及系统有效
申请号: | 201810815712.7 | 申请日: | 2018-07-20 |
公开(公告)号: | CN108920710B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 汪敏;刘鹏飞;严妍;周键;王静;林珂珉 | 申请(专利权)人: | 北京开普云信息科技有限公司;开普云信息科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/36;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网信息 信息监测 词库 构建 信息泄漏 方式通知用户 定义规则 方案解决 实时过滤 相关信息 信息检测 信息识别 规则库 短信 网站 误报 采集 互联网 分析 | ||
本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:S1、构建涉密涉敏信息识别模型;S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;S3、采集互联网信息,对其进行涉密涉敏信息检测,判断其涉密涉敏信息泄漏级别;S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。另外,本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统,本发明的技术方案解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤,并且高误报得问题,能够高效、快速、准确地对互联网中的涉密涉敏相关信息进行识别。
技术领域
本发明属于互联网内容安全检测领域,尤其涉及一种互联网信息涉密涉敏监测信息方法及系统。
背景技术
随着信息时代的到来,互联网成为政府进行信息公开的主要窗口。但在政府信息公开的同时,一些涉密涉敏信息也正面临着日益突出的网络及信息安全问题。目前,内容安全已经上升为网络安全一级大类,国务院办公厅和网信办对内容安全工作提出更高要求。而在互联网web端、移动端的网页/扫描件/附件内容,其中可能存在一些涉及到公民个人隐私、涉密信息、内部不宜公开信息、军队番号等不希望被公开、违反法律法规、易引起侵权投诉、或限制发布的涉密涉敏信息,政府网站一旦泄露或发布不应该被公开的信息,或者是限制发布的信息,可能会违反国家法律,或者会给网站带来麻烦,或者影响网站的声誉。因此如何准确及时地对互联网涉密涉敏信息进行监测成为信息安全管理以及政务信息化过程中一个重要课题。
目前,传统的互联网涉密涉敏信息监测主要是基于文本多模式串匹配算法,经典的如Aho-Corasick多模式匹配算法、Wu-Manber经典多模式匹配算法,对互联网网页内容进行涉密涉敏信息监测,但是这些信息监测方法存在许多问题,比如内存开销过大,数据结构复杂,执行时间速度慢等问题。另外,单纯依赖一种经典算法,缺乏良好的预处理和事后信息过滤等手段时,易造成误报率较高,导致系统的实用性较差。在如今的大数据时代,政府对全互联网监控提出了更高的要求,传统的涉密涉敏信息监测方法,不管从准确度还是处理速度,都难以满足现实应用的需求。如何对海量网页进行实时过滤,并且减少机械匹配中产生的高误报问题,高效快速地对政府网站中涉密涉敏相关信息进行识别,这是本领域所亟待解决的问题。
发明内容
为了对海量的互联网信息进行涉密涉敏信息的实时监控,提高涉密涉敏信息识别的准确率,本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法及系统,其基于大数据和机器学习技术,对政务网站大规模网页训练,提取预处理特征,加快涉密涉敏信息的检查速度;另外,通过广泛分析政务网站环境下的语料库,构建全面专业的语料库;并在经典的多模式串匹配算法的基础上,基于双数组Tries(DoubleArrayTries)技术重构涉密涉敏词典,提高词典的检索效率,并且降低系统所占资源;最后,通过使用规则引擎降低涉密涉敏信息的误报率,提高了对互联网信息进行涉密涉敏信息监测的准确性。
本发明提供的一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:
S1、构建涉密涉敏信息识别模型;
S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;
S3、采集互联网信息,对其进行涉密涉敏信息检测,得到其涉密涉敏信息泄漏级别;
S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。
其中,所述步骤S1进一步包括:
S1.1、收集大量包含涉密涉敏信息互联网信息,所述互联网信息包括网页、扫描件以及附件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京开普云信息科技有限公司;开普云信息科技股份有限公司,未经北京开普云信息科技有限公司;开普云信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810815712.7/2.html,转载请声明来源钻瓜专利网。