[发明专利]一种基于云语义库的网页审计方法无效
申请号: | 201010000496.4 | 申请日: | 2010-01-15 |
公开(公告)号: | CN101901245A | 公开(公告)日: | 2010-12-01 |
发明(设计)人: | 尹志超 | 申请(专利权)人: | 莱克斯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 网页 审计 方法 | ||
1.本发明是一种基于云技术的网页审计方法,主要用于网络信息安全领域。发明运用云技术,通过审计设备获取用户浏览网页并与云语义库匹配得出网页分类信息。其特征如下:
在云平台下计算并存储
提炼语义库
网页内容与语义库相匹配得出网页分类
审计人员反馈审计结果并根据审计结果更新云语义库
2.根据权利要求以所述的一种基于云技术的网页审计方法,其特征在于提炼分类语义库,步骤如下:
(1)按照需求分类,且每一类建立核心词库、非核心词库、停用词库以及出错词库,并人工初始化核心词库和停用词库
(2)将爬虫获得的网页进行语义分析,保留动词和名词并去除停用词,与核心词库进行匹配词频统计,取统计之和最大的分类,按词频将除核心词库和停用词库之外的词排序,取特定比例(如前10%)的词放入对应分类中的非核心词库
(3)统计非核心词的计数,以网页为单位,在一个网页出现过,其级数累加1,以此类推,当某个非核心词库的计数超过某限定值时,加入到相应类别的核心词库,并对计数低于某限定值的词定期删除
(4)对出现的新词语可人工添加到相应的核心词库中,并将错误的核心词添加到停用词库,不断更新的核心词库即为语义库
3.根据权力要求1所述的一种基于云技术的网页审计方法,其特征在于:
在审计过程是在云平台下进行
4.根据权力要求1所述的一种基于云技术的网页审计方法,起特征在于:
在审计过程中将网页内容与分类语义库进行匹配得出网页分类,步骤如下:
(1)获取用户浏览网页内容并进行语义分析及词频统计
(2)取出词频在前特定比例的词语与语义库进行匹配,匹配成功则该词对应的词频累加,累加之和最大的语义库对应的分类即为该网页分类
5.根据权力要求1所述的一种据以云技术的网页审计方法,其特征在于:
对审计结果进行人工校验,并根据审计结果更新云语义库,其步骤如下:
(1)审计人员校验审计结果,并将处理后的出错网页的数据发送到出错词库中。
(2)云端的反馈处理程序处理网页内容并统计出错率,当出错率超过限定值时,系统报警提示某类语义库异常,技术人员处理该类出错词库,将出错词库中词频较高的词放入该类的停用词库并去除核心词库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于莱克斯科技(北京)有限公司,未经莱克斯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010000496.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶喷水推进器进水流道的一种参数化设计方法
- 下一篇:档案浏览系统及其方法