[发明专利]一种记录网页访问行为的方法及装置在审
| 申请号: | 201410204346.3 | 申请日: | 2014-05-14 |
| 公开(公告)号: | CN104021143A | 公开(公告)日: | 2014-09-03 |
| 发明(设计)人: | 张磊;曹政 | 申请(专利权)人: | 北京网康科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/06 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张振伟 |
| 地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 记录 网页 访问 行为 方法 装置 | ||
1.一种记录网页访问行为的方法,其特征在于,构建网址规则库;所述方法还包括:
获取网页访问数据并提取主机名Host和统一资源定位符URL字段;
根据所述网址规则库,对所提取的Host和/或URL字段进行匹配处理;
根据匹配结果,记录访问网址信息。
2.根据权利要求1所述的方法,其特征在于,所述网址规则库包括:域名白名单库、域名黑名单库、关键字白名单库、以及关键字黑名单库;
所述构建网址规则库的过程包括:
根据网址数据中所记录的每一条URL信息,生成由域名和文件名后缀组成的规则库;根据是否需要记录,将由域名和文件名后缀组成的规则库分为域名白名单库和域名黑名单库;
根据网址数据中所记录的每一条URL信息,根据通用关键字创建规则形成规则库;根据是否需要记录,将根据通用关键字创建规则所形成的规则库分为关键字白名单库和关键字黑名单库。
3.根据权利要求2所述的方法,其特征在于,所述构建网址规则库的过程还包括:
对于域名白名单库和域名黑名单库,分别建立以Host字段为索引的索引目录;对于关键字白名单库和关键字黑名单库,分别建立以URL中连续的N个字符为索引的索引目录,N为大于1的整数。
4.根据权利要求2或3所述的方法,其特征在于,所述根据预设网址规则库,对所提取的Host和/或URL字段进行匹配处理包括:
在域名白名单库和域名黑名单库中查询所述Host字段、和/或在关键字白名单库和关键字黑名单库中查询所述URL字段。
5.根据权利要求2或3所述的方法,其特征在于,所述根据匹配结果,记录访问网址信息包括:
若在域名白名单库中查询到所述Host字段,且所述URL字段与域名白名单库中所述Host字段所对应的规则匹配,记录相应的Host和URL字段;若在域名黑名单库中查询到所述Host字段,且所述URL字段与域名黑名单库中所述Host字段所对应的规则匹配,不记录相应的Host和URL字段;
若查询到所述URL字段中包含关键字白名单库中的关键字,且所述URL字段与关键字白名单库中所述关键字所对应的规则匹配,记录相应的Host和URL字段;若查询到所述URL字段中包含关键字黑名单库中的关键字,且所述URL字段与关键字黑名单库中所述关键字所对应的规则匹配,不记录相应的Host和URL字段。
6.一种记录网页访问行为的装置,其特征在于,所述装置包括:构建模块、获取模块、匹配处理模块、以及记录模块;其中,
所述构建模块,用于构建网址规则库;
所述获取模块,用于获取网页访问数据并提取主机名Host和统一资源定位符URL字段;
所述匹配处理模块,用于根据所述网址规则库,对所提取的Host和/或URL字段进行匹配处理;
所述记录模块,用于根据匹配结果,记录访问网址信息。
7.根据权利要求6所述的装置,其特征在于,所述网址规则库包括:域名白名单库、域名黑名单库、关键字白名单库、以及关键字黑名单库;
相应地,所述构建模块具体用于:
根据网址数据中所记录的每一条URL信息,生成由域名和文件名后缀组成的规则库;根据是否需要记录,将由域名和文件名后缀组成的规则库分为域名白名单库和域名黑名单库;
根据网址数据中所记录的每一条URL信息,根据通用关键字创建规则形成规则库;根据是否需要记录,将根据通用关键字创建规则所形成的规则库分为关键字白名单库和关键字黑名单库。
8.根据权利要求7所述的装置,其特征在于,所述构建模块还用于:
对于域名白名单库和域名黑名单库,分别建立以Host字段为索引的索引目录;对于关键字白名单库和关键字黑名单库,分别建立以URL中连续的N个字符为索引的索引目录,N为大于1的整数。
9.根据权利要求7或8所述的装置,其特征在于,所述匹配处理模块具体用于:
在域名白名单库和域名黑名单库中查询所述Host字段、和/或在关键字白名单库和关键字黑名单库中查询所述URL字段。
10.根据权利要求7或8所述的装置,其特征在于,所述记录模块具体用于:
若匹配处理模块在域名白名单库中查询到所述Host字段,且所述URL字段与域名白名单库中所述Host字段所对应的规则匹配,记录相应的Host和URL字段;若匹配处理模块在域名黑名单库中查询到所述Host字段,且所述URL字段与域名黑名单库中所述Host字段所对应的规则匹配,不记录相应的所述Host和URL字段;
若匹配处理模块查询到所述URL字段中包含关键字白名单库中的关键字,且所述URL字段与关键字白名单库中所述关键字所对应的规则匹配,记录相应的Host和URL字段;若匹配处理模块查询到所述URL字段中包含关键字黑名单库中的关键字,且所述URL字段与关键字黑名单库中所述关键字所对应的规则匹配,不记录相应的所述Host和URL字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京网康科技有限公司,未经北京网康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410204346.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:射芯机的新型射砂机构
- 下一篇:加长型伞柄





