[发明专利]一种互联网资源的下载方法及系统有效
申请号: | 201210353411.X | 申请日: | 2012-09-21 |
公开(公告)号: | CN102857575A | 公开(公告)日: | 2013-01-02 |
发明(设计)人: | 张云飞;刘军;陈伟;庞景良;李锦根;黄兴红;周青辉 | 申请(专利权)人: | 深圳市宜搜科技发展有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国;刘荣鑫 |
地址: | 518026 广东省深圳市福田区滨*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 资源 下载 方法 系统 | ||
技术领域
本发明涉及互联网领域,特别是涉及一种互联网资源的下载方法及系统。
背景技术
随着互联网的迅猛发展,信息到了大爆炸时代,而搜索引擎也成了人们离不开的工具,而搜索引擎所有信息来自互联网。在海量的信息中,音频,视频文件是必须采集的,然而许多音频,视频文件的获取不能够依靠简单的超链接得到,因为大部分资源站点都加入了防盗链等策略(例如有cookie,http头做了特殊设置等),仅根据超链接能够下载到的资源文件越来越少。
为了更好的获取互联网资源,特别是音频、视频文件,因此,亟待一种新的技术出现以破解该难题。
发明内容
本发明的主要目的在于提出一种互联网资源的下载方法及系统,以解决现有技术中许多音频、视频文件的获取不能够由简单超链接得到以及下载效率问题。
为解决上述问题,本发明提供了一种互联网资源的下载方法,包括,
解析模块向下载模块请求一个资源下载任务和该资源的描述信息;
解析模块调度模拟人工浏览器模块模拟人工浏览网页,同时加载截包模块获取资源请求信息,并将截包模块获取的资源请求信息发送给下载模块;
下载模块根据解析模块提供的资源请求信息下载该资源。
进一步地,在解析模块向下载模块请求一个资源下载任务和该资源的描述信息之前,还包括,
下载模块向数据库请求一批资源下载任务和该资源的描述信息。
进一步地,在下载模块根据解析模块提供的资源请求信息下载该资源后,还包括,
将下载模块下载好的资源存储至数据库。
上述的方法中,其中,所述资源包括视频、音频和歌词;所述资源的描述信息包括音频的播放页URL、视频的播放页URL、歌词的浏览页URL、资源类型、是否鼠标点击、浏览器类型;所述资源类型包括音频、视频、歌词;所述浏览器类型包括IE浏览器、chrom浏览器;所述资源请求信息包括资源的http请求头、URL和资源任务id。
上述的方法中,其中,所述解析模块调度模拟人工浏览器模块模拟人工浏览网页,同时加载截包模块获取资源请求信息,具体包括,
初始化模拟人工浏览器模块;
建立用户数据报协议udp服务与截包模块通讯;
解析模块根据资源的描述信息中浏览器类型确定模拟人工浏览器模块的模拟方式和截包模块的加载方式;
模拟人工浏览器模块模拟人工浏览音频的播放页URL、视频的播放页URL、歌词的浏览页URL;
同时,解析模块加载截包模块获取资源请求信息。
上述的方法中,其中,所述解析模块根据资源的描述信息中浏览器类型确定模拟人工浏览器模块的模拟方式和截包模块的加载方式具体包括,
若资源的描述信息中浏览器类型为IE浏览器,解析模块确定模拟人工浏览器模块的模拟方式为IE模拟方式,即模拟人工浏览IE浏览器,同时利用微软Detour组件把截包模块注入模拟人工浏览器模块;
若资源的描述信息中浏览器类型为chrom浏览器,解析模块确定模拟人工浏览器模块的模拟方式为chrom模拟方式。
上述的方法中,其中,所述截包模块获取资源请求信息具体包括,
截获每一个http请求头,并记录http请求头、URL和socketID;如果URL中包含.wma/.MP3,则将该http请求头和URL作为默认的资源请求信息;
截获每一个http响应头,若响应头的内容在Content-Type后包含音频标志或视频标志,则将该socketID对应的http请求头和URL作为所需的资源请求信息;否则,如果存在默认的资源请求信息,将默认的资源请求信息作为所需的资源请求信息;否则,截包模块获取资源请求信息失败;
截包模块将获取的资源请求信息发送给解析模块。
本发明还提供了一种互联网资源的下载系统,包括,
下载模块,用于向数据库请求一批资源下载任务和该资源的描述信息,以及用于根据解析模块提供的资源请求信息下载该资源;
解析模块,用于向下载模块请求一个资源下载任务和该资源的描述信息,以及调度模拟人工浏览器模块模拟人工浏览网页,同时加载截包模块获取资源请求信息,并将截包模块获取的资源请求信息发送给下载模块;
模拟人工浏览器模块,用于模拟人工浏览网页;
截包模块,用于获取资源请求信息,以及将获取的资源请求信息发送给解析模块。
进一步地,上述的下载系统,还包括,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市宜搜科技发展有限公司,未经深圳市宜搜科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210353411.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:读取视频进度的方法
- 下一篇:预取数据的方法、设备和装置