[发明专利]针对视频网站的广域网爬虫系统无效
| 申请号: | 200810180826.5 | 申请日: | 2008-11-25 |
| 公开(公告)号: | CN101446954A | 公开(公告)日: | 2009-06-03 |
| 发明(设计)人: | 杨溥;郭军;陈光 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种针对视频网站的广域网爬虫系统,包括以下部件:超链接扫描器,通用地址分析提取器,视频标识提取器,播放地址合成器,视频真实地址提取器,真实地址存储库,视频数据下载器,视频数据存储库,以及超链接喂食器。通过应用本发明所描述的系统,可以有效地解决爬虫系统无法采集广域网中视频网站数据的问题;可以为视频爬虫系统中的核心技术转址功能提供通用的框架;可以为搭建针对广域网视频的搜索引擎系统的重要组成部分视频数据采集系统提供通用的搭建架构;显著降低广域网视频爬虫系统的开发难度,进一步有效地降低系统开发成本。 | ||
| 搜索关键词: | 针对 视频 网站 广域网 爬虫 系统 | ||
【主权项】:
1. 一种针对视频网站的广域网爬虫系统,其特征在于包括:超链接扫描器,用于提取网页中的所有超链接;通用地址分析提取器,用于分析并提取网页中的指向视频的通用形式超链接;视频标识提取器,用于分析并提取网页中的视频的标识符号;播放地址合成器,用于将所述视频标识提取器提取的视频标识符号合成播放器所需的网页地址;视频真实地址提取器,用于在所述播放地址合成器合成的播放地址所指向的页面中提取视频真实存放地址;通用地址存储库,用于保存在所述通用地址分析提取器中被提取的指向视频的通用形式超链接;真实地址存储库,用于保存在所述视频真实地址提取器中被提取的视频真实存放地址超链接;视频数据下载器,用于下载在所述真实地址存储库中存储的视频真实存放地址超链接指向的视频数据;视频数据存储库,用于存储在所述视频数据下载器中下载的数据;超链接喂食器,用于向所述超链接扫描器提供需要处理的超链接。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810180826.5/,转载请声明来源钻瓜专利网。





