[发明专利]一种敏感词自动过滤管理系统有效
| 申请号: | 201010536437.9 | 申请日: | 2010-11-09 |
| 公开(公告)号: | CN101964000A | 公开(公告)日: | 2011-02-02 |
| 发明(设计)人: | 熊巍 | 申请(专利权)人: | 焦点科技股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/00 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
| 地址: | 210061 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 敏感 自动 过滤 管理 系统 | ||
1.一种敏感词自动过滤管理系统,它包括敏感词检测子系统、人工干预操作子系统、敏感信息替换子系统以及敏感词判定分值效果回馈子系统组成,其特征在于:
所述敏感词检测子系统,它实现对包含敏感数据的检查,即在一定时间间隔内对原始数据建立索引,再通过对已建立索引的检查,分离出包含敏感信息的数据,如果不包含敏感信息就忽略,如果包含敏感信息则将该敏感信息采集下来存放于存储介质,这时存储的数据是所有可疑数据,包括确定为敏感数据的-高敏感信息、可能为敏感数据的-疑似敏感信息,为人工干预操作子系统和敏感信息替换子系统做数据准备;
所述人工干预操作子系统,它实现对敏感词检测子系统检测出的包含敏感信息的数据进行人工审核处理和查漏补缺,在敏感词检测子系统做完初步检查后,筛选下来的结果分为两类,一类是需要人工审核处理和另一类不需要人工审核处理的系统自动处理,操作员参照系统的推荐值进行处理;
所述敏感信息替换子系统,它实现对已经被判定为高敏感信息的数据进行过滤与替换,不在面向互联网的网页上展示这些带有高敏感信息的数据,屏蔽搜索引擎对这些高敏感信息数据的收集,做到信息的安全展现;
所述敏感词判定分值效果回馈子系统,它实现对人工审核过程中所执行操作的记录,并针对这些记录进行拟合计算,将这个计算值反馈作用于下一周期的判断阀值,依据实际数据在合理范围的波动以适应数据环境的变化,根据这些操作的趋向性修改系统中最初设定的判定是否为敏感信息的阀值。
2.根据权利要求1所述的敏感词自动过滤管理系统,其特征在于:所述敏感词检测子系统利用搜索工具对原始数据的检索、分析,根据其分析结果与敏感词的相关性,从而确定该数据是否是敏感数据。
3.根据权利要求2所述的敏感词自动过滤管理系统,其特征在于:对原始数据的检索、分析是,当遇到简单的敏感词,以该敏感词与包含敏感词的具体数据的相似性,作为分析依据;当遇到较为复杂多个词构成的敏感词采用矢量相似算法。
4.根据权利要求1所述的敏感词自动过滤管理系统,其特征在于:所述敏感词判定分值效果回馈子系统判定信息是否包含敏感的阀值是由系统进行自我调节的,通过加入回馈元素,即在每次人工处理时对处理的数据是偏向否定,则对阀值增,偏向肯定,则对阀值减,使得判断是否敏感的阀值会有浮动。
5.根据权利要求1所述的敏感词自动过滤管理系统,其特征在于:所述敏感词检测子系统、人工干预操作子系统、敏感信息替换子系统以及敏感词判定分值效果回馈子系统的结合,作为一整套的敏感词处理方式。
6.根据权利要求5所述的敏感词自动过滤管理系统,其特征在于:建立一种根据实际情况可以做自我调整的智能判断敏感信息的系统,实现数据集成、整理、转换盒分析,同时创立对敏感信息的科学词性趋向指标和评价体系。
7.根据权利要求6所述的敏感词自动过滤管理系统,其特征在于:所述评价体系由数据采集单元根据词汇的出现次数、查询条件的频度、查询的向量值、敏感数据的词性建立,形成一个综合评分,根据此评分得到一个评分指标,即敏感信息的最低得分和最高得分,成为判断是否为敏感信息的根据。
8.根据权利要求7所述的敏感词自动过滤管理系统,其特征在于:所述评价体系根据需要进行判断分值初始设定和后期调整。
9.根据权利要求8所述的敏感词自动过滤管理系统,其特征在于:所述数据采集单元处理所有客户发布在互联网上需要展示的数据,对这些数据按最小的颗粒度,根据词汇的出现次数、查询条件的频度、查询的向量值、敏感数据的词性建立数据结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010536437.9/1.html,转载请声明来源钻瓜专利网。





