[发明专利]一种实现数据泄露防护的方法和系统在审

申请号：	201710379190.6	申请日：	2017-05-25
公开（公告）号：	CN107292193A	公开（公告）日：	2017-10-24
发明（设计）人：	高学伟;陶亚虎;熊天舒	申请（专利权）人：	北京北信源软件股份有限公司
主分类号：	G06F21/62	分类号：	G06F21/62;G06F17/27;G06F17/30
代理公司：	北京东正专利代理事务所(普通合伙)11312	代理人：	刘瑜冬
地址：	100081 北京市海淀区中关村***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种实现数据泄露防护方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息安全技术领域，特别涉及一种实现数据泄露防护的方法和系统。

背景技术

随着信息技术的飞速发展，计算机和网络已成为日常办公、通讯交流和协作互动的必备工具和途径。但是，信息系统在提高工作效率的同时，也对信息的存储、访问控制及信息系统中的计算机终端及服务器的访问控制提出了安全需求。据国家计算机信息安全测评中心数据显示，由于内部重要机密数据通过网络泄露而造成经济损失的单位中，97％都是由于内部员工有意或者无意之间泄露而造成的。DLP(Data Leakage Prevention，数据泄漏防护)技术日渐成为目前最为重要的安全技术之一。

目前，DLP技术大致可以分为两大类：基础检测技术和高级检测技术。其中，基础检测技术通常有三种方式：正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测；高级检测技术通常也有三种方式：精确数据比对(EDM)、指纹文档比对(IDM)、向量分类比对(SVM)。

但是，对于现有的技术来说，基础检测技术相对死板，如果用户有意修改敏感关键字，那么采用基础检测技术就不能有效的检测出包含敏感信息文件。高级检测技术中的EDM和IDM都是精确匹配的方法，在用户有意修改泄密的文件指纹后，就不能有效的检测出文件是否敏感，而SVM对于二分类的分类情况效果比较好，但是并不适合多分类的情况，但是现实生活中通常都是多类别的文件。由于传统DLP技术中，基础检测方法关键词(字)比较的单一性、高级检测方法EDM和IDM文件对比的死板性和SVM在多类别分类的效果不佳。因此，需要一种新的DLP技术解决现有技术中存在的问题。

发明内容

本发明实施例提供了一种实现数据泄露防护的方法和系统，能够有效的克服传统DLP技术中基础检测方法关键词(字)比较的单一性的问题、高级检测方法EDM和IDM文件对比的死板性的问题和SVM在多类别分类的效果不佳的问题。

第一方面，本发明实施例提供了一种实现数据泄露防护的方法，该实现数据泄露防护的方法包括：

对预处理文本数据进行预处理，形成向量数据；

将向量数据作为K-MEDOIDS聚类算法的输入数据并且按照预设规则进行无监督学习，形成聚类模型；

通过聚类模型对外发文件进行检查，判断外发文件是否为泄密文件，若是，则不允许外发文件外发；否则，允许外发文件外发。

优选地，在对预处理文本数据进行预处理之前，进一步包括：

收集文本数据，并筛选出具有预设特征的文本数据作为进行预处理的预处理文本数据。

优选地，对预处理文本数据进行预处理形成向量数据，包括如下步骤：

对预处理文本数据进行文本分词，形成分词文本数据；

去除分词文本数据中的停用词，形成去停用词文本数据；

对去停用词文本数据进行文档频率DF特征提取，形成特征文本数据；