[发明专利]一种eDonkey网络共享文件及客户端信息爬取方法有效
申请号: | 201010263210.1 | 申请日: | 2010-08-26 |
公开(公告)号: | CN101916291A | 公开(公告)日: | 2010-12-15 |
发明(设计)人: | 杨加;马皓;宋维佳;张蓓;周渊 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08;H04L29/06 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 苏爱华 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 edonkey 网络 共享 文件 客户端 信息 方法 | ||
技术领域
本发明提供一种eDonkey网络共享文件及客户端信息爬取方法,具体涉及一种通过关键词查找来快速地获得共享文件及客户端信息的方法,属于计算机网络领域。
背景技术
P2P文件共享网络近年发展十分迅速,各种类型的文件(包括音视频文件、游戏软件、电子文档等等)通过P2P网络得以快速地在世界范围内传播。利用P2P文件共享网络分享和获取文件,已经成为网络用户的日常行为。
P2P文件共享网络与传统的文件发布和共享方式不同。在传统方式下,文件通过一个或者若干个服务器进行发布,用户需从这些服务器上获得这些文件,一个典型的例子就是通过FTP服务器共享文件。在P2P文件共享网络中,每个用户都可以把自己拥有的文件提供给别的用户下载,也可以从别的用户下载自己需要的文件。因此,从功能上来说,P2P文件共享网络中的每个用户的地位是平等的。
P2P文件共享网络的日益流行带来不少问题。P2P流量在网络流量中的比例越来越大,加重了网络设备的负担,增加了网络运行维护的成本,甚至影响其它网络业务的正常运行。由于P2P系统的自由性和开放性,P2P文件共享网络成为了一些黄色、暴力、反动内容的传播平台。此外,大量的有侵犯知识产权嫌疑的影视文艺作品也借助P2P文件共享网络得到迅速传播。近年来,在使用P2P文件共享网络过程中发生的泄密事件,也时有发生,造成了严重、恶劣的影响。
为了解决这些问题,需要对P2P文件共享网络进行监测,分析网络中的共享文件的分布情况和传播规律,以及节点(eDonkey服务器和客户端)的分布情况。只有允分地掌握了这些信息,才能有效地对控P2P文件共享网络进行管控。
eDonkey网络是最大的P2P文件共享网络之一,其它流行的P2P文件共享网络包括BitTorrent、Gnutella。eDonkey网络由eDonkey服务器和eDonkey客户端组成。eDonkey服务器本身不提供文件下载,而只是管理eDonkey网络中的eDonkey客户端信息和客户端提供的共享文件的信息。eDonkey客户端必须要登录到一个eDonkey服务器之后才能连接到eDonkey网络中。eDonkey客户端连接到eDonkey网络中后,该客户端的信息及其提供下载的共享文件信息即被发送给相应的服务器。客户端可以向服务器查询所需的文件,并从服务器得到这些文件的相关信息以及提供文件下载的其它客户端的信息。得到这些信息后,客户端即可直接连接到提供文件下载的其它客户端,以下载所需的文件。
2005年,杨加等人提出一种通过关键词查询,使用爬虫(为实现爬取eDonkey网络信息而开发的eDonkey客户端软件)从eDonkey服务器爬取eDonkey网络中共享文件信息以及eDonkey客户端信息的爬取方法(Crawling the eDonkey Network,Jia Yang,Hao Ma,Weijia Song,Jian Cui,Changling Zhou,In 2006 Fifth International Conference on Grid and CooperativeComputing Workshops,December 2006,pp.133-136.)。但是,由于eDonkey服务器对于每次关键词查询的返回结果数目是有限制的,因此:
假定eDonkey服务器最多能返回N个查询结果(为便于讨论,称为查询结果上限)。向服务器进行关键词查询时,即使与关键词匹配的文件数目大于N,也只能从服务器获得N个匹配文件的信息。
在实际爬取过程中,文件匹配数超过查询结果上限的情况是经常出现的。特别是在进行热门关键词或者常用关键词进行查询时,多数情况下,文件匹配数会超过查询结果上限。杨加等人并没有针对这种情况提出有效的解决方法,因而导致获取信息的效率不高。
发明内容
本发明的目的是提供一种新的方法,该方法提高了通过关键词查询爬取eDonkey网络共享文件信息和客户端信息的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010263210.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:碳纤维石英加热管
- 下一篇:一种搜索显示数据的方法及装置