[发明专利]一种图片下载系统及方法有效
| 申请号: | 200710074405.X | 申请日: | 2007-05-10 |
| 公开(公告)号: | CN101071433A | 公开(公告)日: | 2007-11-14 |
| 发明(设计)人: | 胡景贺 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳中一专利商标事务所 | 代理人: | 张全文 |
| 地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 图片下载 系统 方法 | ||
技术领域
本发明属于计算机技术领域,尤其涉及一种图片下载系统及方法。
背景技术
图片下载系统在网络上利用爬取技术下载图片文件,即通过抓取带有图片的网页获得图片链接,即图片的统一资源定位符(Uniform Resource Location,URL)。
图片下载系统可以通过网页净化去除图片中的广告部分,即通过分析网页的结构和文字特点,将网页中所带有的广告部分(包含URL)去除,但该方案只是针对单一网页的结构和全网网页的特点进行判断,而对于某一站点内的区域特点利用不够导致去除广告的效率低。
此外,图片下载系统还可以通过网页模版去除广告,即针对特定网站或特定类型的网页制作模版,在网页分析的过程中利用模版判断图片连接是否为广告,是则将其去除。但该方案的这种分析不够全面,因为大部分网站没有模版,所以去除广告的效率也很低。
发明内容
本发明实施例的目的在于提供一种图片下载系统,旨在解决现有技术中通过网页净化或网页模板的方式的去除广告效率低的问题。
本发明实施例的另一目的在于提供一种图片下载方法。
本发明实施例是这样实现的,一种图片下载系统,所述系统包括:
网页分析模块,用于分析网页并获取所述网页中图片的统一资源定位符;
图片信息库,用于保存已下载图片的统一资源定位符,以及记录了图片与网站归属关系的文档信息;
控制模块,用于根据所述网页分析模块提供的统一资源定位符判断图片信息库中是否包括所述统一资源定位符,如果包括,向文档信息记录模块发出控制信号,如果不包括,向下载模块发送控制信号;
下载模块,用于在所述控制模块判定所述图片信息库中不包括所述统一资源定位符时,接收所述控制模块发送的控制信号,根据所述图片的统一资源定位符下载所述图片并将所述图片的统一资源定位符保存到图片信息库中;
文档信息记录模块,用于记录所述图片与网站的归属关系,并保存到所述图片信息库中;
所述控制模块进一步用于根据包括图片与网站归属关系的文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
一种图片下载方法,所述方法包括:
A.分析网页,获取所述网页中图片的统一资源定位符;
B.判断图片信息库中是否包括所述统一资源定位符,是则执行步骤D,否则执行步骤C;
C.根据所述图片的统一资源定位符下载所述图片并将图片的统一资源定位符保存到图片信息库中;
D.记录所述图片的文档信息并保存在图片信息库中,所述文档信息包括图片与网站的归属关系;
E.根据所述文档信息判断所述图片在当前网站出现次数是否大于阈值p,是则将其判定为广告图片并删除,否则不进行删除操作;其中阈值p为当前网站上已下载图片的平均分布值。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。
附图说明
图1是本发明实施例提供的图片下载系统结构图;
图2是本发明实施例提供的图片下载方法的实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过建立图片信息库,对在网页中出现的图片进行记录,将在同一网站出现的次数异常的图片判定为广告,充分利用了同一网站上网页所具有的区域特点,从而提高了判断广告图片的效率。
图1示出了本发明实施例提供的图片下载系统100,包括:网页分析模块101、图片信息库102、控制模块103、下载模块104以及文档信息记录模块105。其中,网页分析模块101分析网页并获取网页中图片的URL,图片信息库102保存已下载的图片URL,以及记录了图片与网站归属关系的文档信息等。
控制模块103根据网页分析模块101提供的URL判断图片信息库102中是否包括该URL,是则发送控制信号,控制文档信息记录模块105记录该图片与网站的归属关系,并将其作为文档信息保存在图片信息库102中;否则还向下载模块104发送控制信号,触发下载模块104根据该URL下载对应的图片并将图片的URL保存到图片信息库102中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710074405.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种星光石的制备方法
- 下一篇:一种相关问题检索方法及系统





