[发明专利]一种爬虫的爬取方法及装置在审
申请号: | 201610196270.3 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291727A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 潘峰;孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 方法 装置 | ||
2.根据权利要求1所述的方法,其特征在于,所述获取待爬取域名,包括:
获取所述待爬取页面的html源码;
解析所述html源码,得到所述待爬取页面的网址;
将所述待爬取页面的网址作为待爬取域名。
3.根据权利要求1所述的方法,其特征在于,所述对所述待爬取域名进行域名解析,包括:
通过域名管理机构获取顶级域名库,所述顶级域名库中包括已注册的顶级域名;
根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名;
根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀。
4.根据权利要求3所述的方法,其特征在于,所述根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名,包括:
以分隔符对所述待爬取域名进行分段,将所述待爬取域名的最后一个分段作为当前待解析分段;
识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名;
若所述顶级域名库中存在与所述当前待解析分段相同的顶级域名,则将所述当前待爬取域名的分段由后往前递加一个分段作为更新的当前待解析分段,并重复执行所述识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名的步骤,直到识别出所述顶级域名库中不存在与所述当前待解析分段相同的顶级域名为止,并将最后一次识别出的顶级域名 作为所述待爬取域名的顶级域名。
5.根据权利要求4所述的方法,其特征在于,所述根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀,包括:
将所述识别出的顶级域名的前一个分段作为所述待爬取域名的主域名;
将所述待爬取域名中除去所述识别出的顶级域名和主域名后得到所述待爬取域名的前缀。
6.根据权利要求5所述的方法,其特征在于,所述根据解析的结果判断所述待爬取域名与预置域名是否相同,包括:
根据识别出所述待爬取域名的各个分段,将所述待爬取域名的主域名和顶级域名分别与预置域名的主域名和顶级域名进行对比,判断所述待爬取域名的主域名和顶级域名与所述预置域名的主域名和顶级域名是否相同。
7.一种域名解析装置,其特征在于,包括:
获取单元,用于获取待爬取域名;
解析单元,用于对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;
爬取单元,用于对与所述预置域名相同的待爬取域名进行爬取。
8.根据权利要求7所述的装置,其特征在于,所述解析单元,包括:
获取模块,用于通过域名管理机构获取顶级域名库,所述顶级域名库中包括已注册的顶级域名;
识别模块,用于根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名;
解析模块,用于根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀。
9.根据权利要求8所述的装置,其特征在于,所述识别模块,具体用于:
以分隔符对所述待爬取域名进行分段,将所述待爬取域名的最后一个分段作为当前待解析分段;
识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域 名;
若所述顶级域名库中存在与所述当前待解析分段相同的顶级域名,则将所述当前待爬取域名的分段由后往前递加一个分段作为更新的当前待解析分段,并重复执行所述识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名的步骤,直到识别出所述顶级域名库中不存在与所述当前待解析分段相同的顶级域名为止,并将最后一次识别出的顶级域名作为所述待爬取域名的顶级域名。
10.根据权利要求9所述的装置,其特征在于,所述解析模块,具体用于:
将所述识别出的顶级域名的前一个分段作为所述待爬取域名的主域名;
将所述待爬取域名中除去所述识别出的顶级域名和主域名后得到所述待爬取域名的前缀。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610196270.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息核对方法及系统
- 下一篇:一种获取用户属性的方法、装置及电子设备