[发明专利]微信文章以及公众号的获取方法及获取系统有效

专利信息
申请号: 201510609672.7 申请日: 2015-09-22
公开(公告)号: CN105320740B 公开(公告)日: 2018-10-16
发明(设计)人: 薛一波;易成岐;郭泽豪 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李相雨
地址: 100084 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 爬虫 获取系统 验证码 第三方平台 搜索平台 可用性 增量式 保证 过滤 搜索 更新 记录
【说明书】:

发明提供了一种微信文章以及公众号的获取方法以及获取系统,本发明在爬虫正常爬取的基础上,接入第三方平台来识别验证码,解决了搜狗搜索时出现的验证码问题,保证爬虫稳定地爬取;另外爬虫利用文章ID以及公众微信号做布隆过滤,保证了微信爬虫不会由于搜狗搜索平台URL的变化而无法正常运行,同时通过增量列表记录了上次爬虫更新的状态,保证了爬虫的增量式爬取,提高了爬虫的效率,本发明能够高效、稳定、全面地爬取微信公众号和文章,具有很好的可用性。

技术领域

本发明属于数据获取技术领域,更具体涉及一种微信文章以及公众号的获取方法以及获取系统。

背景技术

腾讯公布的2015年微信业绩报告显示,微信每月活跃用户已超过5亿,用户覆盖200多个国家、超过20种语言。此外,微信公众号是微信的主要业务之一,2013年11月微信公众号的数量超过200万,2014年7月微信公众号的数量已达到580万,2014年12月微信公众号总数超过800万个,目前,微信公众号的数量已经超过1千万。微信公众号主要通过推送文章来增加粉丝量,从而广告主可以在关注度比较高的公众号投放广告,经统计,接近80%微信用户关注了微信公众号。大多数用户关注企业和媒体的微信公众号,比例高达73.4%。41.1%的用户关注公众号目的是为了获取资讯,36.9%的用户是为了方便生活,13.7%的用户是为了学习知识。如何提取和有效地利用微信数据,既是机遇又是挑战。

微信数据获取是微信数据分析的基础,其中微信数据主要包括微信公众号信息以及微信文章信息。微信数据获取主要通过网络爬虫的形式爬取。网络爬虫又称为网络机器人、网络蜘蛛,是一种按照某些策略,自动抓取网络资源的脚本或者程序。

搜狗微信搜索是搜狗在2014年6月9日推出的针对微信公众平台的搜索引擎,微信搜狗搜索支持根据关键字搜索微信公众号以及微信公众号推送的文章。搜狗搜索正式接入微信公众号数据,首次实现公众号的“外网”展示。

综上,微信作为社交平台,扩大了社交圈,微信公众号是微信的主要业务之一,公众号数据量庞大,存在很大的潜在的研究价值。同时搜狗搜索接入微信数据,也为获取微信数据提供了可能。然而,在微信数据获取中,现在还没有一种高效、稳定、全面地获取微信文章以及公众号的技术方案。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何高效、稳定、全面地获取微信文章以及公众号。

(二)技术方案

为了解决上述技术问题,本发明提供一种微信文章以及公众号的获取方法,所述方法包括以下步骤:

S1、获取微信检索所需关键字,对于每一个关键字,为其构建1个或多个搜索URL,并将构建的所述搜索URL放入请求队列;

S2、启动爬虫组件,针对一关键字的每一个搜索URL以及搜索URL页面上未爬取的URL进行爬取:

S21、判断当前爬取页面是否是验证码页面,若当前爬取页面是验证码页面,则执行步骤S22,否则执行步骤S23;

S22、获取当前页面的验证码,并上传至第三方平台,由所述第三方平台进行验证码识别,之后模拟验证码提交表单提交验证码,之后执行所述步骤S21;

S23、判断当前爬取页面的URL是否为当前关键字对应的多个所述搜索URL中的一个,若是执行步骤S24,否则执行步骤S30;

S24、利用布隆过滤方法筛选出当前爬取页面中未爬取的微信文章的URL以及对应的微信公众号的URL,并放入所述请求队列;对于微信文章的URL以及微信公众号的URL中的每一个URL,执行步骤S21;

S25、判断当前爬取页面是否为当前关键字的第一个搜索URL对应的页面,若是执行步骤S26,否则执行步骤S27;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510609672.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top