[发明专利]基于D-S证据理论的敏感信息检测方法有效
| 申请号: | 201110350580.3 | 申请日: | 2011-11-09 |
| 公开(公告)号: | CN102426599A | 公开(公告)日: | 2012-04-25 |
| 发明(设计)人: | 陈性元;杜学绘;夏春涛;陈华城;王超;曹利峰;孙奕;李炳龙;张东巍;赵艳杰 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F21/00 |
| 代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 白毅明 |
| 地址: | 450001 河南省郑*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 证据 理论 敏感 信息 检测 方法 | ||
技术领域
本发明涉及一种电子政务系统的敏感信息检测方法,特别是涉及一种基于D-S证据理论的敏感信息检测方法。属于计算机安全领域。
背景技术
互联网是信息化的重要基础设施,是国家重要的战略资源,积极利用互联网进行电子政务建设,既能节约资源、节省成本,又能提高效率、扩大服务的覆盖面。对于中国这样一个发展中国家的电子政务乃至信息化建设具有重要的战略意义。但是,利用开放的互联网开展电子政务建设,面临着计算机病毒、网络攻击、信息泄漏、身份假冒等安全威胁和风险,应该高度重视信息安全。基于互联网电子政务系统的政务应用主要分为政务办公和公共服务等。公共服务面向社会公众提供公开信息,政务办公则自来一些政府部门间的公文流转等。基于互联网电子政务的数据安全要求:一方面不能在公共服务域内发布一些未公开的或未审定的公文等敏感信息,另一方面不能在政务域中存储超越该政府级别的敏感信息。一旦文件越级保存,则可能造成信息泄露,从而对政府部门带来严重的影响。因此,有必要对电子政务系统的信息进行审查,并采取相应的防护措施,防止敏感信息越级保存和泄露。
对信息审查的过程实质上就是对信息集合与需求集合的匹配与选择。要实现匹配与选择,首先要对信息集合进行特征化表示;其次在检索时,也要对用户所提出的信息需求进行分析,提取概念或属性,然后通过匹配和选择机制,对需求集合与信息集合进行相似性比较,最后根据一定的标准选出符合需要的信息。传统的信息检测算法(如:基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法等)都是基于不同的框架而开发的,由于算法的思想不同,对于同一份文档各个算法检测的结果不一样,甚至存在冲突,而且在一定程度上存在误检、漏检等现象。
发明内容
本发明的目的是克服单一敏感信息检测算法(如基于向量模型、布尔模型、概率模型)中查全率、查准率不高,算法之间的结果不一致的问题,在统计了各种算法在检测电子政务敏感信息效果的基础上,提出了一种基于证据理论的融合各种检测算法的方法。
为了实现上述目的,本发明提供了一种基于D-S证据理论的多种敏感信息检测算法融合的方法。证据理论方法提供了一种不完全证据联合决策的技术,在对待一个待定的决策问题时,由于决策者的经验、知识以及对该问题的认识的局限性,在做出决策时会存在不足;而且由于不同的决策者的经验、知识以及对该问题的认识的不同,对同一问题会得出截然相反的结论,证据理论正是基于人们对客观世界认识存在的不确定性,从而提出综合多个证据进行融合决策的方法。具体如下:
一种基于D-S证据理论的敏感信息检测方法,包括:
步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;
步骤2)、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;
步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;
步骤4)、用步骤3)中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。其流程图详见附图1。
所述的基于D-S证据理论的敏感信息检测方法,数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的;在所述的步骤2)之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略,具体采用基于向量空间的敏感信息检测算法,步骤如下:
步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj=<w1j,w2j,...,wMj>,其中wij表示索引项ti在文档dj中的权重,
具体的计算公式可以表示为:
其中tf(ti,dj)为词ti在文档dj中出现的词数;N为所有要聚类的文本的个数;df(ti)为包含有词ti的文档个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110350580.3/2.html,转载请声明来源钻瓜专利网。





