[发明专利]一种基于网页数据的高速主题爬虫方法在审

申请号：	201810761246.9	申请日：	2018-07-12
公开（公告）号：	CN109165333A	公开（公告）日：	2019-01-08
发明（设计）人：	向勇;梁超;朱焱麟	申请（专利权）人：	电子科技大学
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	电子科技大学专利中心 51203	代理人：	闫树平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及计算机数据挖掘技术领域，具体为一种基于网页数据的高速主题爬虫方法。本发明利用HTML下载器、BeautifulSoup4网页解析器、json格式规整器、异常处理机制except、多线程机制threading、I/O操作eventlet共同构成的一个爬虫方法。基于开源程序组件构建的爬虫，并且在利用原有技术框架的基础之上进行深度开发定制，满足各领域用户的特定需求，节省开发的时间与经费的成本。利用已有的成熟的多线程机制与异常处理机制与I/O操作，具备高速性、高自动化、高稳定性的特性，解决了普通爬虫速度慢，异常多的问题。使用的格式化存储机制特别适用于表格类数据库，使所爬取的目标数据能够快速的存储和调用。
搜索关键词：	爬虫网页数据异常处理主题爬虫多线程计算机数据挖掘格式化程序组件存储机制高稳定性技术框架领域用户目标数据深度开发网页解析高速性规整器下载器构建调用数据库存储自动化成熟开发
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于用户定制类型的高速主题爬虫方法，具体步骤如下：步骤1、通过网站前端的页面设定爬取入口、使用requests构造HTML下载器；所述HTML下载器用于获取URL响应，并为响应配备utf‑8的解码器；步骤2、通过BeautifulSoup4网页解析器解析网页响应，通过筛选器获取网页相关数据，以及获取下个将要爬取的网页URL；步骤3、将解析后所有需求数据所在的网页URL加入threading线程池中，并使用requests构造HTML下载器并发连接URL获得网页响应，在此过程中加入超时机制eventlet，避免因异常导致的I/O阻塞；步骤4、将步骤3获得的所有网页响应依次加入队列，在队头使用BeautifulSoup4解析响应，筛选器获取网页目标数据以及对应网页需要的下层URL；步骤5、将筛选器获取的目标数据通过json格式规整器进行规整，并将结果存储到系统中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810761246.9/，转载请声明来源钻瓜专利网。

上一篇：一种网页信息获取方法、装置以及设备
下一篇：一种建立CDN厂家基础知识库的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网页数据的高速主题爬虫方法在审

专利文献下载