[实用新型]中小微企业网络信息采集分析系统有效

专利信息
申请号: 201720595001.4 申请日: 2017-05-26
公开(公告)号: CN206728038U 公开(公告)日: 2017-12-08
发明(设计)人: 魏墨济;刘向阳;李晨;朱世伟;李宪毅;杨爱芹;于俊凤;董婷;李思思;徐蓓蓓;刘翠琴;张铭君;王爱萍;王彦 申请(专利权)人: 山东省科学院情报研究所
主分类号: H04L12/24 分类号: H04L12/24;H04L12/26
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中小 企业 网络 信息 采集 分析 系统
【说明书】:

技术领域

本实用新型涉及一种中小微企业网络信息采集分析系统,更具体的说,尤其涉及一种爬取节点利用远程的VPN代理服务器来访问数据源的中小微企业网络信息采集分析系统。

背景技术

大数据时代Web所承载的丰富数据为各级各类企业辅助决策、制定计划、管理成本、销售运营、服务售后等提供信息支持。有效地信息获取将帮助企业提高在市场竞争中的积极性和主动性,为企业业务的更好开展提供机遇。网络爬虫系统的产生和成熟为企业爬取网络数据奠定了良好的开端。

大多数中小企业及微型企业办公地点集中在同一区域,因此一般先是在企业内部组建局域网(Local Area Network, LAN)实现内部的办公自动化(Office Automation, OA),而后通过路由器接入运营商的方式访问Internet。在访问Internet过程中,局域网内的所有接入设备共享运营商分配的同一个IP地址,大多数的企业很难拥有独属于自己的多个公网IP地址。

然而企业对Web信息的需求并不仅局限于政策导向类的网站或新闻发布类的网站,为了更进一步的了解用户的需求,企业还需抓取论坛、微博等即时互动平台数据。为应对市场的瞬息万变,企业需实时掌控人们话题讨论的热点、风向、倾向等,这对即时互动平台数据抓取提出了较高的实时性要求。受目标数据源服务器的限制,同一IP的爬虫在一定时间内只能采集同一目标数据源限定的数据。即使企业在局域网内设置了多个爬虫,这些爬虫在访问目标数据源的过程中也将被运营商分配相同的IP地址,因此当其中一个爬虫达到访问上限时,其余爬虫也将被拒绝访问。这对企业爬取数据的覆盖性和完整性提出了极大的挑战。

发明内容

本实用新型为了克服上述技术问题的缺点,提供了一种中小微企业网络信息采集分析系统。

本实用新型的中小微企业网络信息采集分析系统,包括网络信息采集子系统、网络信息分析子系统以及最终用户,网络信息采集子系统、网络信息分析子系统以及最终用户均部署于同一局域网内,并通过路由器接入运营商的方式访问Internet;其特别之处在于:还包括由多个VPN代理服务器构成的代理服务器集群,所述网络信息采集子系统由爬取设置客户端、爬取主控节点、多个爬取节点以及数据接收、汇总服务器组成,爬取设置客户端用于配置数据源、关键词和爬取策略,爬取主控节点根据爬取设置客户端的配置为各个爬取节点分配任务,爬取节点根据爬取主控节点分配的任务选择一个VPN连接连入远程VPN代理服务器,使用VPN代理服务器访问Internet中的目标数据源;数据接收、汇总服务器用于接收和存储爬取节点采集的网络数据。

本实用新型的中小微企业网络信息采集分析系统,所述网络信息分析子系统由Hadoop集群和应用服务器组成,Hadoop集群由一台主节点NameNode和多台从节点DataNode组成,Hadoop集群用于接收和存储数据接收、汇总服务器发送的网络数据;应用服务器用于接收用户的请求并将处理结果反馈给用户。

本实用新型的中小微企业网络信息采集分析系统,所述用户通过应用服务器提交请求并获取所需信息;用户与应用服务器间可通过B/S形式或C/S形式交互信息。

本实用新型的中小微企业网络信息采集分析系统,所述网络信息采集子系统和网络信息分析子系统的各设备均为逻辑划分,并非每个设备均需一个物理设备与其对应;爬取主控节点的功能可由某一个爬取节点承担;数据接收、汇总服务器既可并入Hadoop集群,由其中的某台服务器承担其功能,也可由爬取主控节点承担其功能;应用服务器可并入Hadoop集群,由其中的某台服务器承担其功能。

本实用新型的有益效果是:本实用新型的中小微企业网络信息采集分析系统,负责数据源采集的爬取节点、负责爬取管理的主控节点、爬取设置客户端、以及数据接收、汇总服务器共处于同一局域网中,相互之间可直接通过内网通信,简化了网络信息采集子系统的同步、协调和管理工作;其次,爬取节点通过VPN拨号的方式连入远程VPN代理服务器,进而使用代理服务器的公网IP地址访问数据源,通过切换VPN连接获取足够的公网IP,解决了爬取节点抓取网络数据时IP地址单一的问题,从而解决即时互动平台数据采集覆盖性和完整性问题。用户可直接从同处于内网的信息分析子系统获取有效信息,将数据间的交互限定于局域网内减少外网的占用,为爬取节点的外网访问保留足够带宽。

附图说明

图1为本实用新型的中小微企业网络信息采集分析系统的部署结构图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201720595001.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top