[发明专利]一种基于BSP模型的实时图数据处理系统及方法有效
| 申请号: | 201310256296.9 | 申请日: | 2013-06-25 |
| 公开(公告)号: | CN103336808B | 公开(公告)日: | 2017-12-15 |
| 发明(设计)人: | 周薇;韩冀中;戴娇;张章 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bsp 模型 实时 数据处理系统 方法 | ||
技术领域
本发明涉及大规模图数据处理领域,特别是涉及一种基于BSP模型的实时图数据处理系统及方法。
背景技术
近年来,随着SNS(Social Network Service,社交网络服务)平台的迅速发展与普及,作为该平台的数据表现方式——图数据也处于信息膨胀的态势。为了表达更多信息,图数据的表达形式日益复杂,数据量也日益庞大。
与此同时,图数据的数据条数会更加庞大,并且数据与数据之间的联系更加复杂,数据并不是孤立存在的。因此,图数据的存储就会面临着较大的挑战。除此之外,如何处理如此大规模的图数据,以达到挖掘隐藏在背后的信息的目的,也是图数据处理系统应该考虑的问题。
因此,图数据处理面临着许多挑战,总结如下:
图数据组织和存储:图数据是以顶点和边的形式表示的,并且图数据的特征比较明显,即是数据条数众多。如何存储和组织这些图数据对后续的数据处理的影响重大,尤其是在图数据处理这种应用场景下,需要多个迭代计算,每次迭代都需要访问源数据。在图数据平台上,会同时运行多个图处理作业,那么这些作业与作业之间如何共享原始的图数据也是会直接影响性能的地方。因此,图数据的组织和存储形式成为现在图数据处理的一个挑战。
图数据查询统计引擎:图数据处理有多种类型,除了最初的图数据分析之外,也有图数据查询和统计。图数据查询是指查询顶点和边。以公交站牌系统为例,市民需要查询公交站牌A有哪几趟车或者车B经过哪些公交站牌,都属于图数据查询的应用。图数据统计是指关于顶点和边的统计信息。如哪个公交站牌是最忙的(有最多的公交车通过),这些问题都属于图数据统计的应用。因此,图数据处理的种类比较繁多,为了满足用户的需求,既需要支持图数据分析,也需要支持查询和统计。综上所述,图数据处理需要一个高效的统计查询引擎。
实时图数据处理框架:图数据处理对时间的要求越来越高。以前的图数据处理通常作为后台分析进行,是离线批处理作业。并且由于数据总量小,所以分析的内容不是很复杂,也不是很频繁。但是,随着互联网和SNS平台的发展,图数据呈指数级增长,这些海量数据底下隐藏的信息也会更加丰富,图数据处理也会变得更加复杂和频繁。目前,这些离线批处理作业正在逐步由后台转向前台,对处理性能提出了实时性的要求。
现有的图数据处理的解决方案中,主要倾向于两种:MapReduce和BSP模型。但是MapReduce是为离线批处理作业设计的,而BSP模型是处理迭代计算的,每次迭代之间使用一个同步过程,该同步过程使得处理效率急剧下降。综上所得,现有的这两种解决方案不适合进行在线图数据处理。为此,需要一个在线图数据处理系统能够解决以上问题。
发明内容
本发明所要解决的技术问题是提供一种基于BSP模型的实时图数据处理系统及方法,用于解决现有图数据处理技术中存在的存储结构不合理、统计查询效率低、不满足实时性要求及处理效率低等问题。
本发明解决上述技术问题的技术方案如下:一种基于BSP模型的实时图数据处理系统,包括相互通信的数据存储单元、图数据查询统计单元和图数据分析处理单元:
数据存储单元,其用于对图数据进行预处理,并将预处理后的图数据按“内存存储—分布式内存存储—分布式文件系统”的三层存储结构进行存储,并基于图数据生成作业;
图数据查询统计单元,其用于对所述数据存储单元的图数据进行查询和统计,将所述数据存储单元生成的作业分解为多个任务,并将分解的任务以均衡的方式分发给相应计算节点,再统计每个任务的计算结果,并合并所有任务的计算结果作为最终结果返回给用户;
图数据分析处理单元,其用于使各计算节点通过迭代计算执行所述图数据查询统计单元分解出的任务,并通过消息传递实现每次迭代计算的同步,并输出任务的计算结果至所述图数据查询统计单元。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据存储单元包括预处理模块、导入模块和存储模块;
所述预处理模块,其连接所述导入模块,用于遍历源数据,并对源数据中的点边关系进行处理,并将处理后的源数据传输给所述导入模块;
所述导入模块,其连接所述存储模块,用于将源数据转化为简单图与超图相结合的图数据格式,并存入所述存储模块中;
所述存储模块,其用于按“内存存储—分布式内存存储—分布式文件系统”的三层存储结构存储图数据,并将图数据生成作业传输给所述图数据查询统计单元。
进一步,所述图数据查询统计单元包括作业分解模块和作业合并模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310256296.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:管材用紧固连接配件
- 下一篇:一种仿人机器人辅助的互联网信息获取方法及系统





