[发明专利]一种对监测网站进行网络信息采集的方法和装置在审
申请号: | 201911115673.0 | 申请日: | 2019-11-14 |
公开(公告)号: | CN110851690A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 杨杰;邹琴;钟生海;赵明辉;曹舒禹;苏冬南;焦鹏;孙燕 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 王雪芬 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监测 网站 进行 网络 信息 采集 方法 装置 | ||
本发明涉及一种对监测网站进行网络信息采集的方法和装置,属于网络信息采集技术领域。本发明通过利用代理服务器对监测网站进行信息采集,信息采集系统的IP地址不直接进行网络信息采集,有效地保护了信息采集系统的IP地址。即使某个代理服务器被封,只需跟换代理服务器就可以,信息采集系统的IP地址不换,不会对网络信息的采集任务造成任何影响,大大提高了对监测网站进行网络信息采集的效率。
技术领域
本发明属于网络信息采集技术领域,具体涉及一种对监测网站进行网络信息采集的方法和装置。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
为了获取网络舆情,需要用户利用网页爬虫工具对监测网站进行定向的网络信息抓取,上述监测网站的类型比较广泛,可以包括:新闻、论坛、微博、贴吧、博客、视频、报刊杂志等。上述监测网站的地理位置可以位于国内或者国外。
现有技术中的一种对监测网站进行定向的网络信息抓取的方法包括:网络舆情监测系统中的网页爬虫工具通过设定的采集IP直接连接监测网站,对监测网站进行定向的网络信息抓取。
上述现有技术中的一种对监测网站进行定向的网络信息抓取的方法的缺点为:由于网络舆情的监测是个长期和实时的过程,网络舆情监测系统中的网页爬虫工具通过设定的采集IP长期和实时地连接监测网站,进行信息抓取,会被监测网站认为是是恶意信息采集,监测网站会对该采集IP进行封杀,导致不能对该监测网站进行网络舆情监测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种对监测网站进行网络信息采集的方法和装置,以提高对监测网站进行网络信息采集的效率。
(二)技术方案
为了解决上述技术问题,本发明提供了一种对监测网站进行网络信息采集的装置,包括:
所述信息采集系统,与代理服务器进行网络连接,用于接收所述代理服务器传输过来的网络信息;
所述代理服务器,与监测网站进行网络连接,用于通过多个IP地址轮循对所述监测网站进行信息采集,将采集到的网络信息传输给所述信息采集系统。
优选地,所述代理服务器包括:
信息管理模块,用于管理代理服务器的多个IP地址,根据代理服务器需要监测的各个监测网站的参数信息,将各个监测网站划分成不同的级别,针对每个级别的监测网站分别设定相应的网络信息的采集时间间隔,将每个监测网站的标识、监测网站所属的级别与监测网站对应的采集时间间隔之间的对应关系存储在采集时间间隔表中;
信息采集系统网络连接模块,用于将所述代理服务器的每个IP地址和将信息采集系统的IP地址进行网络连接;
监测网站网络连接模块,用于根据监测网站对应的采集时间间隔,将代理服务器的每个IP地址轮循与所述监测网站进行网络连接。
优选地,所述监测网站网络连接模块具体用于当所述代理服务器只对一个监测网站进行网络信息采集时,根据该监测网站的标识查询所述采集时间间隔表,获取该监测网站对应的采集时间间隔;按照这个监测网站对应的采集时间间隔,将代理服务器的各个IP地址轮循和该监测网站进行网络连接;或者,从空闲的代理服务器的多个IP地址中随机选取一个IP地址和该监测网站进行网络连接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911115673.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面显示方法和装置、存储介质及电子装置
- 下一篇:一种心率内感觉测量方法