[发明专利]大规模网络数据的多信息来源采集方法和系统有效

专利信息
申请号: 201811637902.0 申请日: 2018-12-29
公开(公告)号: CN109840298B 公开(公告)日: 2021-09-24
发明(设计)人: 史存会;程学旗;孟剑;俞晓明;郭岩;贺广福;周秀花;余智华;刘悦 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大规模 网络 数据 信息 来源 采集 方法 系统
【说明书】:

发明涉及一种大规模网络数据的多信息来源采集方法,包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化操作,并进行输出。本发明提出的方法可以感知信息来源的变化,能够定点定主题的获取信息来源的网络数据,并且具有泛化能力,采集能力与传媒种类无关。

技术领域

本发明属于数据感知与获取领域,特别涉及一种面向网络空间的大规模数 据感知中的数据采集技术中的核心采集器架构。

背景技术

随着互联网的逐步发展,网络已经成为了最大的数据来源。人们无论是科 研应用还是学术研究,都需要大量的数据作为支撑,帮助后续的需求。长久以 来人们都在关注于互联网数据采集任务。从最初的开源采集技术框架如 Heritrix到支持分布式的集成了索引构建功能的nutch再到后来的更加开放的, 可定制的轻量框架scrapy。这些采集技术都关注于如何高效的获取互联网数 据,但是这些获取过程中都是开放式的采集,或者基于域名的垂直采集。这些 采集技术需要给定种子页面链接,首先获取种子页面然后从中抽取链接,进行 采集,对于新采到的页面,也要抽取其中的链接,然后将链接加入到待采集队 列中。直到符合要求的链接被采集完或者链接到达了制定的最大深度。

除了上述的开放式的采集外,还有一种常见的采集方式是定制化的采集, 即针对某个或某种特定网站进行定制化开发,分析网站链接情况,然后根据其 页面以及网络特征构建数据抽取方法。

现有的开放式的采集方法可以保证数据的完整性,但是不可避免的是,采 集过程中,所有在当前采集页面中出现的链接都会被采集到。首先,这些连接 中往往包含着大量的广告页面。其次,虽然网络数据的链接十分重要,但是, 人们往往更关注于数据的内容,而这种开放式的采集,往往会采集到大的数据 列表页面或者信息聚合页面,这种页面的采集,对于应用而言是一种冗余。这 些采下来的冗余数据,广告数据是对采集资源的一种浪费,同时也增加了后续 处理的难度。并且在应用中,人们对于数据的需求时明确的,或有主题要求的, 即人们会根据数据应用时的情况来确定需要使用的数据的主题特征,然而开放式的采集即使对于采集域进行限制,对于链接进行规则化的要求依然是不能够 保证对于无用主题的采集。而这些数据,即使是干净的数据,对于后续应用而 言,依然是冗余的。

此外,开放式的采集,由于其采集过程是动态扩散式的,这也导致了对于 数据感知的难度。即当对数据存在长期需求时,开放式的采集往往需要遍历所 有采集需求内的节点才能确保对于数据增加或数据更新感知的完整性与准确 性。

而定制化的采集方式可以大量的避免冗余数据,和广告数据。但是这种定 制也意味着泛化能力的不足。互联网中的数据往往可以按照其发布和交互形式 分为新闻,论坛,博客等不同的信息来源,每个信息来源都有其特定的格式, 如新闻数据源,其数据包含了新闻正文,新闻作者,新闻题目,新闻评论等数 据,每个新闻页都有着其所属分类。同样的论坛也划分为板块,论坛的数据包 含了论坛主贴,论坛回帖等内容。针对每个信息来源,甚至每个网站的定制性 开发采集器必然导致了采集器不能够被复用。这是对于开发的一种浪费。

发明内容

针对上述问题,本发明提出一种大规模网络数据的多信息来源采集方法, 包括:获取多种传媒上的网络数据所在的信源;生成采集任务,启动并初始化 采集节点上的采集器;将该采集任务的参数配置信息加载至该采集器;以该采 集器获取该信源的目标信息内容链接,并建立链接队列;以该采集器依次采集 该链接队列中对应的目标信息内容为结构化数据;将该结构化数据进行持久化 操作,并进行输出。

本发明所述的多信息来源采集方法,其中该采集器采用Board-Article采集 结构,该目标信息内容链接展示在Board页中,该目标信息内容展示在Article 页中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811637902.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top