[发明专利]一种基于云语义库的网页审计方法无效
申请号: | 201010000496.4 | 申请日: | 2010-01-15 |
公开(公告)号: | CN101901245A | 公开(公告)日: | 2010-12-01 |
发明(设计)人: | 尹志超 | 申请(专利权)人: | 莱克斯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 网页 审计 方法 | ||
技术领域
本发明属于网络安全领域中的重要应用——上网行为管理中的网页审计方法
背景技术
随着网络的普及,学校,企业等各行各业对上网行为管理的需求越来越大,对网络审计提出了更高的要求,传统网页审计方法依靠url分类,但其存在明显的局限性:
1.正确性,网页数量巨大,不可能将所有的url都进行分类,这就不能保证网页审计的正确性。
2.即时性,网页数量增长过快,而url分类库不可能时时更新,因而保证不了网页审计的即时性。本发明基于云技术以及文本聚类技术,通过网页内容对网页进行分类审计,有效的解决了上述问题。
发明内容
传统的网页审计基于url分类库,将从网上获取的url按照预定义的分类标准进行分类并添加到数据库中,通过获取用户浏览的网址与url分类库进行比较得出网页分类。伴随着着网络的普及,信息的泛滥,每天产生数以万计的新网页,传统的网页审计方法受到了极大的挑战,一方面,将所有的网页都一网打尽是一项不可能完成的任务,当用户浏览url分类库中不存在的网页时,就得不到有效的审计结果,另一方面创建及完善url分类库将耗费大量的人力及硬件资源,同时检索庞大的数据库耗时也会增加,势必会对审计设备的效率造成影响。该发明有效的解决了这一问题,提出了一种新的思路,构建了语义库,并借助了现有的新技术--云技术,形成了云语义库,并将其运用在网络审计中,使网络审计只关注网页的内容,而不关心是否是新的url,同时提高了检索的效率。具体内容如下:
1.搭建云平台。
2.应用网络爬虫技术,不断获取网页。
3.在云平台建立分类语义库,每一类别都分为核心词库、非核心词库、停用词库以及出错词库,出错词库用来存放审计结果与实际记过不相符的网页数据。人工初始化核心词库和停用词库,将爬虫爬取的网页进行语义分析,只保留名词和动词并去除停用词,做词频统计,当与某个类别的核心词库的匹配词频(即计算分类语义库中的词在收到的处理数据中出现的频率)之和最大时,将核心词之外的单词按词频排序,取前某特定比例(如前10%)的词语添加到该类别的非核心词库,统计非核心词的计数,以网页为单位,在一个网页出现过,其计数累加1,以此类推,当某一类非核心词库的某个词出现次数达到某最大限定限定次数时,将其添加到核心词库,并定期对出现次数小于最小限定次数的词语进行删除,同时对核心词库进行人工维护,可将出现的新词语添加到所属类别核心词库并且把错误的核心词移动到停用词库。
4.在网页审计时,审计系统将截获用户浏览的网页内容,并对其进行语义分析,并将这些处理数据发送到云平台,在云平台下遍历分类语义库,并和收到的处理数据做匹配词频统计,该网页的分类即为匹配词频统计之和最大的分类语义库所对应的分类,并分类记录审计过的网页数。
5.审计人员可对审计结果进行校验,当审计结果与实际结果不相符时,审计人员可将审计出错的url及类型发送到云端,云端重新获取该网页内容并进行语义分析及词频统计。将词频在前取前某特定比例的词及词频放入对应的出错词库中,每一类都建立出错计数,出错时该类出错计数加1,并计算出错率(该类出错计数与审计过该类的网页总数的比值),当出错率达到某限定值时,系统可出现报警提示某类语义库异常,技术人员收到报警后处理处理出错词库,将出错词库中词频累加较高的词加入到该类的停用词库中并移除核心词库中与之相同的词。该方法具有以下优势:
1.正确性高,不受网页数量限制
2.即时性高,不管据是否是新网页,只根据内容判断分类
3.效率高
4.有效节省了电脑硬件资源
附图说明
图1为该发明的流程图
图2提炼语义库的流程图
图3审计流程图
具体实施
本发明重点是一种的审计方法,并且基于云技术,以上网行为管理系统为例:
1.搭建云平台,初始化爬虫任务,并同一管理
2.按照需求初始化分类语义库,并按内容3所述算法不断更新语义库
3.给分布各地的上网行为管理系统用户提供云接口,通过该系统截获用户上网浏览网页内容并对内容进行语义分析,并进行词频统计,取出现频率在前50%的词语,将这些词语以及对应的词频发送到云平台,与云端的数据库进行匹配,并将匹配成功的词的词频累加,其累加之和最大的语义库所对应的分类即为该网页的分类。
4.审计人员反馈审计结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莱克斯科技(北京)有限公司,未经莱克斯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010000496.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶喷水推进器进水流道的一种参数化设计方法
- 下一篇:档案浏览系统及其方法