[发明专利]信息抓取方法及装置有效

专利信息
申请号: 201510938034.X 申请日: 2015-12-15
公开(公告)号: CN105447184B 公开(公告)日: 2019-06-11
发明(设计)人: 杜晓梦;刘钰;骆永健;党拓;张扬;吴昊;谭树国;张建枝;李红梅;谢靖鹏 申请(专利权)人: 北京百分点信息科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/953;G06F16/955
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
地址: 100080 北京市海淀区北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 抓取 方法 装置
【说明书】:

发明实施例提供一种信息抓取方法及装置。统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的URL地址的对照关系;从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的所述详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式。实现了信息抓取的实时性、高效性以及智能性。

技术领域

本发明实施例涉及信息技术领域,尤其涉及一种信息抓取方法及装置。

背景技术

信息抓取是一个将非结构化的信息从网站中抓取出来保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值。

信息抓取主要应用在以下几个方面:关键信息抓取:获取各种因特网上各种各样的专业信息数据库;竞争情报系统:通过关键字监视网络媒体上自己与竞争对手的市场信息;企业内容管理:批量精确地获取外部内容,并自动化处理;数据库营销:抽取留言本,论坛,新闻组上面目标潜在用户的留言信息与联系信息;企业整合门户:在EIP中嵌入外部网站的实时内容;比较系统:商品价格比较系统;网络信息集成:从多个同类网站中抽取信息并集成在一起,如个人简历,招聘信息,租赁信息,商品信息,公司名录;个性化信息代理:将个人或企业感兴趣的多个网站最新内容整合在一起,通过Email的形式或者网页形式提供给用户,节约用户的逐个网站下载并浏览的时间等等。由此可见信息抓取非一般的价值且高精度的信息抓取价值更高。

然而,现有的信息抓取系统均需投入大量的硬件资源,否则无法保证抓取信息的实时性。与此同时,对于不同抓取目标站点,现有技术信息抓取难以均保持文本高度准确。

因此,一种新的信息抓取方法亟待提出。

发明内容

本发明实施例提供一种信息抓取方法及装置,用以解决现有技术中信息抓取非实时、资源消耗大的缺陷。

本发明实施例提供一种信息抓取方法,包括:

统计信息网站列表,并将所述信息网站对应的列表页保存在第一数据库中的列表页数据库,其中,所述列表页中保存有所述信息网站与对应的详情页链接地址的对照关系;

从所述第一数据库中读取所述列表页的内容,抓取符合预设抓取策略的所述详情页链接地址并将所述抓取后的所述详情页链接地址保存在所述第一数据库中的详情页数据库;

将所述详情页链接地址分配到不同的抓取机器上进行抓取,并将抓取得到的网页详情数据保存在第二数据库中;

根据所述第一数据库中的数据库状态码从所述第二数据库中抓取出相应的所述网页详情数据,并抽取目标字段,保存为目标格式。

进一步地,统计信息网站列表,并将将所述信息网站对应的列表页保存在第一数据库中,包括:

访问互联网进行数据下载,当判定下载成功之后,抽取目标信息网站的详情页链接地址,并以所述目标信息网站和对应的所述详情页链接地址更新所述详情页数据库,其中,所述数据为目标信息网站及对应的所述详情页链接地址。

进一步地,所述详情页链接地址保存在所述第一数据库中,包括;

每保存一个新的所述详情页链接地址,则计算所述列表页中出现的最新详情页比例,从而动态规划抓取间隔,更新所述第一数据库中的下次抓取时间字段。

进一步地,从所述第一数据库中读取所述列表页的内容,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点信息科技有限公司,未经北京百分点信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510938034.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top