[发明专利]一种基于图数据结构的数据映射方法在审

申请号：	201611001980.2	申请日：	2016-11-14
公开（公告）号：	CN108073619A	公开（公告）日：	2018-05-25
发明（设计）人：	李筱川;张宏	申请（专利权）人：	北京航天长峰科技工业集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图数据结构数据映射文件信息保存文本文件读取文件结果保存外部系统文件创建文件存储图计算导出数据库转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于图数据结构的数据映射方法，包括：(1)根据文件存储的数据库，将文件信息到文件中，如将保存在MySQL中的先行数据导出到txt文件中；(2)通过文件创建SparkRDD，例如文件信息保存在txt中，则可以通过SparkContext读取文件生成RDD，并通过头DF()接口将RDD转换成DataFrame方便下一步计算；(3)通过DataFrame将数据存入Graphx，使用GraphX进行图计算；(4)将计算所得结果保存到HDFS中或HBASE中，或生成文本文件保存到外部系统。

技术领域

本发明涉及计算机数据处理技术领域，具体涉及一种基于图数据结构的数据映射方法。

背景技术

Spark GraphX是一个分布式图处理框架，Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了大家对分布式图处理的需求。

社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博、微信，这些都是大数据产生的地方，都需要图计算。

发明内容

本发明的的目的在于提出一种新的数据分析方案，对于不同的结构化或非结构化数据，存储在SQL或NOSQL数据库等DBMS中、文件系统中的数据映射到GraphX或SparkSQL中进行实时的数据分析，进行并行处理，并根据需要将结果选择性的持久化到HDFS或HBASE中，且并不影响原系统的运行，提高对数据的使用效率。

本发明的技术方案如下：

一种基于图数据结构的数据映射方法，其特征在于：

(1)根据文件存储的数据库，将文件信息到文件中，如将保存在MySQL中的先行数据导出到txt文件中；

(2)通过文件创建SparkRDD，例如文件信息保存在txt中，则可以通过SparkContext读取文件生成RDD，并通过头DF()接口将RDD转换成DataFrame方便下一步计算；

(3)通过DataFrame将数据存入Graphx，使用GraphX进行图计算；

(4)将计算所得结果保存到HDFS中或HBASE中，或生成文本文件保存到外部系统。

本发明将传统结构化和非结构化数据库中的数据完整的保存到SparkSQL或GraphX中，将源文件保存到HBASE中，提供随即读写功能，与Spark同时运行，支持实时的数据分析，进而提供了做并行图计算和各种算法的可能。

本发明可将计算结果保存到分布式系统中或SQL/NoSQL数据库中，这样可把Spark数据分析单独抽取出来，不影响之前的系统运行，将计算结果实时的进行反馈，提高运行效率。

附图说明

图1是本发明采用的数据转换流程图。

具体实施方式

如图1所示，本发明的具体实现方式如下：

(1)根据文件存储的数据库，将文件信息到文件中，如将保存在MySQL中的先行数据导出到txt文件中；

(2)通过文件创建SparkRDD，例如文件信息保存在txt中，则可以通过SparkContext读取文件生成RDD，并通过头DF()接口将RDD转换成DataFrame方便下一步计算；

(3)通过DataFrame将数据存入Graphx，使用GraphX进行图计算；

(4)将计算所得结果保存到HDFS中或HBASE中，或生成文本文件保存到外部系统。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航天长峰科技工业集团有限公司，未经北京航天长峰科技工业集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611001980.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于图数据结构的数据映射方法在审

专利文献下载