[发明专利]一种组合文字和图片信息的网络资讯批量采集方法有效
申请号: | 201410166752.5 | 申请日: | 2014-04-23 |
公开(公告)号: | CN103927370A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 唐宇波;夏平嵩 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组合 文字 图片 信息 网络 资讯 批量 采集 方法 | ||
技术领域
本发明应用于互联网技术领域,涉及一种组合文字和图片信息的网络资讯批量采集方法。
技术背景
随着互联网的迅猛发展,互联网上积累了大量的各类信息,如新闻资讯、潜在客户信息、竞争产品的价格信息,实时金融资讯、统计报告、行业分析报告、供求信息等。对于企业来说,通过这些信息,结合企业内部的业务数据进行分析,对于企业经营决策有非常大的辅助作用,另一方面,企业整理、消化这些信息后,发布到自己企业的网站中,丰富企业网站的内容,提升访问者的体验性,也是很有帮助的。
现在有很多工具能够实现网页内容的采集,但主要还是以文字信息的采集方法为主,没有对网页的图片信息进行有效采集,还缺少一种可靠有效的方法,将网络上的资讯进行可靠地批量采集,并实现采集内容的重复性判断。
专利“网上新闻信息定期自动抓取方法”(专利申请号:CN201210402435.X)可以实现对于新闻信息的定时获取,能够通过配置将目标网站的内容保存到文件服务器中。但这种方法没有针对采集过程中的异常情况进行处理,不能正确识别出资讯页面中的冗余代码,同时对网页中的图片也没有进行处理。
因此,对网页的图片信息和文字信息协调一致,批量可靠的进行采集是一个亟待解决的问题。
发明内容
针对现有技术中存在的问题,本专利发明了一种组合文字和图片信息的网络资讯批量采集方法,它通过一系列配置即可实现对目标网站资讯的采集、去重、存储到数据库,以及按客户指定格式发送到客户指定的地方等功能。
一种组合文字和图片信息的网络资讯批量采集方法,包括:
1、确定需要进行资讯采集的网站,并确定该网站中需要采集的资讯列表页的具体URL,以及这些列表页的页面数量。
其中,可以选择多个网站进行资讯的批量采集。根据不同的时间段,对多个网站的采集时间、采集方式、采集内容进行调度,在上网波峰时间,设置为串行采集方式,即对一个网站的资讯采集完成之后,再开始下一个网站的资讯采集。在上网波谷时间,设置为并行采集方式,即同时对多个网站进行资讯采集,保证了采集的高效,以及资源利用的高效。
2、根据多个列表页的URL,找出这些URL的公共部分,保存在列表配置信息中,另外,把这些列表页的序号信息保存在列表配置信息中。
3、在第一次资讯采集时,系统读取列表配置信息中的URL公共部分信息,从列表页的总数量,就可以得到全部的列表页的序号信息,从而组合成目标网站待采集的所有列表页的URL。
对于以后的资讯采集,系统读取列表配置信息中的URL公共部分信息,以及最新2页的列表页序号信息,组合成目标网站待采集的最新2页的列表页的URL。
系统根据这些URL,来抓取目标网站的这些列表页面的源代码,并通过对源代码进行解析,获取列表页中包含的详细页链接地址。
其中获取详细页链接地址的方式有2种,这两种方式保存在详细页配置信息中:
(1)标签方式。首先设定列表页源代码中包含的详细页链接地址的开始位置标志和结束位置标志,这种位置标志表现为网页中固定的编码,保存在详细页配置信息中。在列表页源代码中查找这些位置标志,从开始位置标志和结束位置标志之间,提取详细页链接地址,并保存到待抓取链接库中。
(2)特定链接方式。首先分析列表页源代码中包含的详细页链接地址,根据采集内容的需要,从中提取详细页链接地址的特征码,再通过正则表达式的构建采集条件,保存在详细页配置信息中。在列表页源代码中获取所有的详细页链接地址。然后与特征码进行匹配,如果可以匹配得上,就保存到待抓取链接库中。
获取的详细页链接地址,与已抓取链接库中保存的详细页链接地址进行比对,如果不相同,就把这个获取的详细页链接地址保存到待抓取链接库中;否则,则丢弃这个获取的详细页链接地址,这样将防止有些链接重复被抓取的现象发生。
其中,采集所有的详细页链接地址使用标签方式,采集满足内容条件的详细页链接地址使用特定链接方式。上述两种方式根据实际情况进行选择使用,也可以结合起来交叉使用。
异常情况处理:
(1)时间过长。因为网站是否可访问无法预计,可能访问时会出现异常,通过对抓取过程设定一个过期时间,当一个网站长时间没有响应的时候,能够主动退出,避免长时间的占有系统资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410166752.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冲内钩脚工装
- 下一篇:一种新型装饰板材结构
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置