[发明专利]目标主题智能抓取方法、系统及计算机可读存储介质在审
申请号: | 201710385603.1 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107133217A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 张程伟;刘顺峰 | 申请(专利权)人: | 北京惠商之星网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京思创大成知识产权代理有限公司11614 | 代理人: | 张清芳 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 主题 智能 抓取 方法 系统 计算机 可读 存储 介质 | ||
技术领域
本发明涉及计算机领域,更具体地,涉及一种目标主题智能抓取方法、系统及计算机可读存储介质。
背景技术
在计算机领域,爬虫技术是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。爬虫技术并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。目前,某些网站可能有些控制访问的逻辑,即反抓取策略。因此,有必要开发一种目标主题智能抓取方法、系统及计算机可读存储介质。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种目标主题智能抓取方法、系统及计算机可读存储介质,其能够通过分布式的搜索,实现高效稳定的目标主题的智能抓取。
根据本发明的一方面,提出了一种目标主题智能抓取方法。所述方法可以包括:调度中心从数据库中读取待匹配搜索的目标主题,通过调度算法分配给多个队列;多个分析器同时从对应的所述多个队列中获取等待分析的所述目标主题,并进行关键词提取,获得所述关键词;多个分析器同时将所述关键词应用到对应的多个互联网站点的搜索界面进行搜索,将获得的搜索结果返回给调度中心;以及调度中心分析所述搜索结果,保存最终的搜索结果,其中,所述多个分析器与所述多个队列一一对应。
优选地,调度中心分析所述搜索结果,保存最终的搜索结果包括:判断所述搜索结果是否有效,如果无效,继续进行所述队列的分配,重复关键词提取与搜索;以及如果有效,保存所述最终的搜索结果。
优选地,所述多个分析器与所述多个互联网站点一一对应。
优选地,所述待匹配搜索的目标主题由用户通过客户端上传至所述数据库。
优选地,还包括:调度中心将所述最终的搜索结果返回给所述客户端。
根据本发明的另一方面,提出了一种目标主题智能抓取系统,所述系统可以包括:调度中心,所述调度中心从数据库中读取待匹配搜索的目标主题,通过调度算法分配给多个队列,分析搜索结果,并保存最终的搜索结果;数据库,存储所述待匹配搜索的目标主题;队列,所述多个队列接收所述调度中心分配的所述待匹配搜索的目标主题,并分配给对应的多个分析器;以及分析器,所述多个分析器同时从对应的所述多个队列中获取等待分析的所述目标主题,并进行关键词提取,将所述关键词同时应用到对应的多个互联网站点的搜索界面进行搜索,将所述搜索结果返回给调度中心,其中,所述多个分析器与所述多个队列一一对应。
优选地,调度中心分析所述搜索结果,保存最终的搜索结果包括:判断所述搜索结果是否有效,如果无效,继续进行所述队列的分配,重复关键词提取与搜索;以及如果有效,保存所述最终的搜索结果。
优选地,所述多个分析器与所述多个互联网站点一一对应。
优选地,所述待匹配搜索的目标主题由用户通过客户端上传至所述数据库,调度中心将所述最终的搜索结果返回给所述客户端。
根据本发明的第三个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现以下步骤:调度中心从数据库中读取待匹配搜索的目标主题,通过调度算法分配给多个队列;多个分析器同时从对应的所述多个队列中获取等待分析的所述目标主题,并进行关键词提取,获得所述关键词;多个分析器同时将所述关键词应用到对应的多个互联网站点的搜索界面进行搜索,将获得的搜索结果返回给调度中心;以及调度中心分析所述搜索结果,保存最终的搜索结果,其中,所述多个分析器与所述多个队列一一对应。
本发明的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的目标主题智能抓取方法的步骤的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京惠商之星网络科技有限公司,未经北京惠商之星网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710385603.1/2.html,转载请声明来源钻瓜专利网。