[发明专利]一种记录网页访问行为的方法及装置在审
| 申请号: | 201410204346.3 | 申请日: | 2014-05-14 |
| 公开(公告)号: | CN104021143A | 公开(公告)日: | 2014-09-03 |
| 发明(设计)人: | 张磊;曹政 | 申请(专利权)人: | 北京网康科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张振伟 |
| 地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 记录 网页 访问 行为 方法 装置 | ||
技术领域
本发明涉及上网行为管理和网络安全领域,尤其涉及一种记录网页访问行为的方法及装置。
背景技术
记录和分析用户网页访问行为是上网行为管理产品和下一代防火墙产品的核心功能之一。由于网页中资源的复杂多样性,使得用户在访问一个门户网站时,可以产生上百个网址。因此,准确有效地识别用户的真实访问数据是一种应用范围极广的技术。
目前,主要通过判断统一资源定位符(Uniform Resource Locator,URL)的后缀和内容类型(Content-type)、根据浏览器类型判断接受(Accept)字段类型、将主机名(Host)和参考(Refer)等字段信息结合起来进行判断、以及根据浏览器与Web服务器的时间差等方法来识别/区分用户真实网页访问行为。然而,这些方法普遍存在性能一般、判断条件单一、以及误识别率高等缺点,并不能真实有效地记录用户网页访问行为,不便于后续的数据查询和分析。
发明内容
有鉴于此,本发明实施例期望提供一种记录网页访问行为的方法及装置,能够真实有效地记录用户网页访问行为。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供一种记录网页访问行为的方法,构建网址规则库;该方法还包括:
获取网页访问数据并提取主机名Host和统一资源定位符URL字段;
根据所述网址规则库,对所提取的Host和/或URL字段进行匹配处理;
根据匹配结果,记录访问网址信息。
上述方案中,所述网址规则库包括:域名白名单库、域名黑名单库、关键字白名单库、以及关键字黑名单库;
所述构建网址规则库的过程包括:
根据网址数据中所记录的每一条URL信息,生成由域名和文件名后缀组成的规则库;根据是否需要记录,将由域名和文件名后缀组成的规则库分为域名白名单库和域名黑名单库;
根据网址数据中所记录的每一条URL信息,根据通用关键字创建规则形成规则库;根据是否需要记录,将根据通用关键字创建规则所形成的规则库分为关键字白名单库和关键字黑名单库。
上述方案中,所述构建网址规则库的过程还包括:
对于域名白名单库和域名黑名单库,分别建立以Host字段为索引的索引目录;对于关键字白名单库和关键字黑名单库,分别建立以URL中连续的N个字符为索引的索引目录,N为大于1的整数。
上述方案中,所述根据预设网址规则库,对所提取的Host和/或URL字段进行匹配处理包括:
在域名白名单库和域名黑名单库中查询所述Host字段、和/或在关键字白名单库和关键字黑名单库中查询所述URL字段。
上述方案中,所述根据匹配结果,记录访问网址信息包括:
若在域名白名单库中查询到所述Host字段,且所述URL字段与域名白名单库中所述Host字段所对应的规则匹配,记录相应的Host和URL字段;若在域名黑名单库中查询到所述Host字段,且所述URL字段与域名黑名单库中所述Host字段所对应的规则匹配,不记录相应的Host和URL字段;
若查询到所述URL字段中包含关键字白名单库中的关键字,且所述URL字段与关键字白名单库中所述关键字所对应的规则匹配,记录相应的Host和URL字段;若查询到所述URL字段中包含关键字黑名单库中的关键字,且所述URL字段与关键字黑名单库中所述关键字所对应的规则匹配,不记录相应的Host和URL字段。
本发明实施例还提供一种记录网页访问行为的装置,该装置包括:构建模块、获取模块、匹配处理模块、以及记录模块;其中,
所述构建模块,用于构建网址规则库;
所述获取模块,用于获取网页访问数据并提取主机名Host和统一资源定位符URL字段;
所述匹配处理模块,用于根据所述网址规则库,对所提取的Host和/或URL字段进行匹配处理;
所述记录模块,用于根据匹配结果,记录访问网址信息。
上述方案中,所述网址规则库包括:域名白名单库、域名黑名单库、关键字白名单库、以及关键字黑名单库;
相应地,所述构建模块具体用于:
根据网址数据中所记录的每一条URL信息,生成由域名和文件名后缀组成的规则库;根据是否需要记录,将由域名和文件名后缀组成的规则库分为域名白名单库和域名黑名单库;
根据网址数据中所记录的每一条URL信息,根据通用关键字创建规则形成规则库;根据是否需要记录,将根据通用关键字创建规则所形成的规则库分为关键字白名单库和关键字黑名单库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京网康科技有限公司,未经北京网康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410204346.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:射芯机的新型射砂机构
- 下一篇:加长型伞柄





