[发明专利]一种基于图数据结构的数据映射方法在审
| 申请号: | 201611001980.2 | 申请日: | 2016-11-14 |
| 公开(公告)号: | CN108073619A | 公开(公告)日: | 2018-05-25 |
| 发明(设计)人: | 李筱川;张宏 | 申请(专利权)人: | 北京航天长峰科技工业集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100854*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图数据结构 数据映射 文件信息 保存 文本文件 读取文件 结果保存 外部系统 文件创建 文件存储 图计算 导出 数据库 转换 | ||
一种基于图数据结构的数据映射方法,包括:(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种基于图数据结构的数据映射方法。
背景技术
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。
社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博、微信,这些都是大数据产生的地方,都需要图计算。
发明内容
本发明的的目的在于提出一种新的数据分析方案,对于不同的结构化或非结构化数据,存储在SQL或NOSQL数据库等DBMS中、文件系统中的数据映射到GraphX或SparkSQL中进行实时的数据分析,进行并行处理,并根据需要将结果选择性的持久化到HDFS或HBASE中,且并不影响原系统的运行,提高对数据的使用效率。
本发明的技术方案如下:
一种基于图数据结构的数据映射方法,其特征在于:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
本发明将传统结构化和非结构化数据库中的数据完整的保存到SparkSQL或GraphX中,将源文件保存到HBASE中,提供随即读写功能,与Spark同时运行,支持实时的数据分析,进而提供了做并行图计算和各种算法的可能。
本发明可将计算结果保存到分布式系统中或SQL/NoSQL数据库中,这样可把Spark数据分析单独抽取出来,不影响之前的系统运行,将计算结果实时的进行反馈,提高运行效率。
附图说明
图1是本发明采用的数据转换流程图。
具体实施方式
如图1所示,本发明的具体实现方式如下:
(1)根据文件存储的数据库,将文件信息到文件中,如将保存在MySQL中的先行数据导出到txt文件中;
(2)通过文件创建SparkRDD,例如文件信息保存在txt中,则可以通过SparkContext读取文件生成RDD,并通过头DF()接口将RDD转换成DataFrame方便下一步计算;
(3)通过DataFrame将数据存入Graphx,使用GraphX进行图计算;
(4)将计算所得结果保存到HDFS中或HBASE中,或生成文本文件保存到外部系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天长峰科技工业集团有限公司,未经北京航天长峰科技工业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611001980.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Solr的分布式检索方法
- 下一篇:一种基于图数据结构的快速检索方法





