[发明专利]互联网数据中心有害信息监测系统有效
申请号: | 201510343226.6 | 申请日: | 2015-06-19 |
公开(公告)号: | CN104951539B | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 彭光辉 | 申请(专利权)人: | 成都艾尔普科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 数据中心 有害信息 监测 系统 | ||
1.互联网数据中心有害信息监测系统,它包括爬虫系统和有害信息监测系统,有害信息监测系统通过爬虫系统获取互联网数据中心中的网页数据,并对其进行有害分析,其特征在于:所述爬虫系统包括一个或多个爬虫集群,且每个爬虫集群均包括多个爬虫结点和一个爬虫根节点,形成一个分布式的数据采集网络,其中,爬虫根节点用于对该爬虫集群中的爬虫结点进行控制和管理,并与有害信息监测系统进行相互通信,爬虫结点用于采集网络中的有害信息,爬虫结点均由以下多种模块组成:
多线程网页采集模块,包括多种网页采集通道及网页解析模块,针对不同类型的网页,通过与其相匹配的网页采集通道和网页解析模块对其进行采集;
网页库,存储多线程网页采集模块所采集的网页;
编码识别处理模块,自动识别网页的编码类型,并对其进行编码转换处理;
网页内容自动提取模块,包括动态网页内容提取模块和静态网页内容提取模块,根据敏感词库根据敏感词库抓取编码转换处理后存在有害信息网页的URL;
URL过滤器,过滤不需要下载的URL;
URL去重模块,用于判断过滤后的URL是否与URL存储器中所存储的URL一致,若一致则不再对该URL进行后续的处理;
URL调度模块,根据去重后的URL队列,控制多线程网页采集模块下载相应的网页;
所述有害信息监测系统包括有害信息搜索单元、自动分词单元、关键字处理单元和模糊匹配单元;
有害信息搜索单元包括本地搜索端口和网络搜索端口,本地搜索端口用于启动本地爬虫结点的搜索引擎,在本地执行该有害信息搜索任务;网络搜索端口用于启动多个爬虫结点的搜索引擎,通过多个爬虫结点同时执行该有害信息搜索任务,还通过该网络搜索端口将搜索结果返回到该本地爬虫结点;
有害信息搜索单元还包括关键字筛选器、标签字段筛选器、元数据字段筛选器和时间筛选器中的一种或多种的组合,通过多种筛选器及其组合完成精确搜索;
关键字处理单元用于生成关键字搜索指令,有害信息搜索单元根据该关键字搜索指令执行有害信息搜索任务;
模糊匹配单元用于根据输入的搜索字符串匹配相近似的近似词汇,使有害信息搜索单元对搜索字符串进行搜索的同时,还完成近似词汇的搜索,并返回近似词汇搜索结果;
自动分词单元用于将输入的搜索字符串进行自动提取关键字,使有害信息搜索单元根据该自动提取关键字完成精确搜索。
2.根据权利要求1所述的互联网数据中心有害信息监测系统,其特征在于:所述爬虫结点还包括网页去重模块,用于判断网页内容是否与已下载过的网页内容一致,若一致则不再对该网页进行后续的处理,并从网页库中将其删除。
3.根据权利要求2所述的互联网数据中心有害信息监测系统,其特征在于:所述网页去重模块包括指纹计算模块、指纹库和指纹去重模块,指纹计算模块根据网页指纹算法,将网页的内容经过计算生成指纹,指纹去重模块将该生成指纹与指纹库中的指纹进行对比,若存在相同或相近似的指纹,则判断该网页内容已下载过,指纹库用于存储指纹数据,且每个爬虫结点的指纹库进行同步更新。
4.根据权利要求1所述的互联网数据中心有害信息监测系统,其特征在于:所述爬虫结点还包括间隔抓取模块,间隔抓取模块通过网页评分和网站权重自动生成间隔规则,并控制网页内容自动提取模块对网页进行相应的间隔抓取;
所述爬虫结点还包括抓取规则设置模块,抓取规则设置模块根据所设置的抓取规则,控制网页内容自动提取模块对网页进行相应的抓取动作;
所述爬虫结点还包括反爬虫抓取模块,当网页设置有反爬虫程序时,启动反爬虫抓取模块,对目标网页进行强制采集;
所述爬虫结点还包括采集监控模块,采集监控模块将爬虫结点的工作状态、采集任务、采集深度和日志信息转发给爬虫根节点进行汇聚处理,并接收爬虫根节点的控制。
5.根据权利要求1所述的互联网数据中心有害信息监测系统,其特征在于:所述关键字搜索指令包括分类ID号、事件名称、关键字选项、排除关键字选项、权重、起始时间;所述排除关键字选项用于使包含排除关键字选项中任一关键字的网页不会被匹配认定为有害信息网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都艾尔普科技有限责任公司,未经成都艾尔普科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510343226.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:为风景照配上符合其意境的诗句的方法
- 下一篇:一种生成序列号的方法及装置