[发明专利]一种采集种子文件的方法、设备及系统有效
申请号: | 201210084450.4 | 申请日: | 2012-03-27 |
公开(公告)号: | CN102638577A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 孙昌瑞;何佳诚;陈奇;李健松;宗劼 | 申请(专利权)人: | 北京蓝汛通信技术有限责任公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100016 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采集 种子 文件 方法 设备 系统 | ||
技术领域
本发明涉及网络技术领域,尤其涉及一种采集种子文件的方法、设备及装置。
背景技术
在点对点网络(peer to peer,P2P)中,进行种子文件(BitTorrent,俗称BT)采集的方法有多种,其中最主要的两种方法为采用爬虫程序采集种子文件和采用数据包劫持的方式采集种子文件。种子文件又称元原文件(或metafile),在种子文件中保存有共享文件的信息,如共享文件的文件名称、文件大小、劫持服务器(Tracker)地址等,一般以“.torrent”为后缀。
爬虫程序是自动提取网络的程序,一般为搜索引擎的重要组成部分,爬虫程序首先需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL(统一资源定位符)队列,然后根据一定的搜索策略从队列中选择下一步要抓取网页的URL地址,重复该过程直至达到一定的条件。由此可见,爬虫程序是通过无限访问去爬各个网站(如BT论坛等)以获取种子文件,这就需要花费大量的时间,实时性较低。
并且,爬虫程序首先要确定爬取的网站的URL,这就使得爬虫程序不可能爬取所有产生种子文件的网站。爬虫程序采用无限访问的方式对网站的危害也较大,必须设置一定的时间间隔策略,延时抓取,这就会降低种子文件采集的速率,同时,在从网站中爬取种子文件时,一般都需要在该网站爬取3-7层才能到找到种子文件,这又进一步降低了采集速率,降低了实时性。
数据包劫持的方式主要是通过劫持客户端发送数据包,分析数据包内容,再根据分析结果采集种子文件。该方式对服务器的要求较高,并且需要进行流量牵引。由此可见,数据包劫持的方式针对性较差,并且采集仅限于能够劫持到数据包的范围之内,采集种子文件的范围有限,采集实时性较差。
发明内容
本发明提供一种采集种子文件的方法、设备及系统,用以提高采集种子文件的针对性,提高采集种子文件的实时性。
本发明实施例提供的具体技术方案如下:
一种采集种子文件的方法,包括:
采集服务器从中央服务器获取磁力链接,所述磁力链接为所述中央服务器接收至少一个客户端发送的资源请求后生成,所述磁力链接至少包括请求资源的哈希值和所述资源请求携带的Tracker服务器地址;
采集服务器根据所述磁力链接中包含的所述哈希值确定下载同一资源的对端客户端,并从所述对端客户端获取所述请求资源的分片信息,生成种子文件。
一种采集服务器,包括:
获取单元,用于从中央服务器获取磁力链接,所述磁力链接为所述中央服务器接收至少一个客户端发送的资源请求后生成,所述磁力链接至少包括请求资源的哈希值和所述资源请求携带的Tracker服务器地址;
处理单元,用于根据所述磁力链接中包含的所述哈希值确定下载同一资源的对端客户端,并从所述对端客户端地址获取所述请求资源的分片信息,生成种子文件。
一种采集种子文件的系统,包括:
至少一个请求客户端,用于发送资源请求,所述资源请求中至少包括请求资源的哈希值和Tracker服务器地址;
中央服务器,用于接收所述至少一个请求客户端发送的所述资源请求,并根据所述资源请求中包含的所述请求资源的哈希值以及所述Tracker服务器地址生成磁力链接,所述磁力链接中至少包括所述请求资源的哈希值和相应的Tracker服务器地址;
采集服务器,用于从所述中央服务器获取所述磁力链接,根据所述磁力链接中包含的所述哈希值确定下载同一资源的对端客户端,并从所述对端客户端获取所述请求资源的分片信息,生成种子文件;
至少一个对端客户端,用于为所述采集服务器提供所述资源分片信息。
基于上述技术方案,本发明实施例中,中央服务器接收至少一个客户端发送的资源请求后生成磁力链接,该磁力链接中至少包括请求资源的哈希值和资源请求携带的Tracker服务器地址,采集服务器从中央服务器获取该磁力链接后,根据该磁力链接中包含的哈希值确定下载同一资源的对端客户端,并从该对端客户端获取请求资源的分片信息,生成种子文件,从而使得采集服务器能够根据实时生成的磁力链接获取资源的分片信息,并生成种子文件,提高了采集的种子文件的实时性,同时,根据哈希值确定下载同一资源的对端客户端,提高了采集的种子文件的针对性。
附图说明
图1为本发明实施例中采集种子文件的系统架构示意图;
图2为本发明实施例中采集服务器的结构示意图;
图3为本发明实施例中采集种子文件的方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京蓝汛通信技术有限责任公司,未经北京蓝汛通信技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210084450.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种散热结构
- 下一篇:一种JFET器件及其形成方法