[发明专利]一种基于大数据的数据分析方法在审
| 申请号: | 201510036086.8 | 申请日: | 2015-01-23 |
| 公开(公告)号: | CN104573063A | 公开(公告)日: | 2015-04-29 |
| 发明(设计)人: | 谢叔阳 | 申请(专利权)人: | 四川中科腾信科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 杨春 |
| 地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 分析 方法 | ||
技术领域
本发明涉及数据处理,特别涉及一种大数据分析和挖掘方法。
背景技术
面对增长迅速的数据量,如何从数据中发掘有用的信息成为当前大多数数据挖掘系统面临的问题。大数据集的数据分析与挖掘系统需要具备的特性包括(1)数据适应性:系统可接受多种类型的数据,避免系统对存储的数据的类型、结构和数据完整性的强要求,从而避免通常的数据仓库对数据的强要求带来的问题;(2)敏捷性:系统能够适应数据递增且更新频繁的应用场景;(3)分析深度:提供对数据分析多角度、多切面的分析,可便捷得加入复杂的概率统计和机器学习算法,适应多类型数据分析需求。
关系型数据库通常提供进行数据分析与挖掘的数据分析工具,然而,以关系型数据库为基础的数据挖掘系统存在以下几个弊端:
(1)在庞大数据量背景下,数据迁移所带来的时间损失巨大,在此种情况下,把计算力移向数据是比数据迁移到计算系统更有效率的方法;
(2)只能通过抽样的方式使得数据量缩小到内存可接受的范围内,数据的抽样通常会导致数据信息量丢失;
(3)不断增加的数据很容易造成数据库索引的不断增加,索引增加的滞后性容易导致数据库的处理速度降低。
因此数据库系统在数据处理效率和可处理的数据量无法满足当前大数据量的爆炸式增长。针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的数据分析方法,包括:
通过可视化的界面接收用户定义的数据挖掘过程,并配置相关的组件信息,实现图形化的数据流程处理;生成符合Hadoop规范的代码,用户通过参数配置界面配置需用户定义的参数;然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码,该转换包括过程模型分析、依赖关系分析、代码模板解析;将数据挖掘组件连接起来构成数据挖掘过程,所述数据挖掘组件封装不同的数据操作逻辑,分成数据挖掘算法组件、连接器组件、用户自定义组件;以Hadoop提供的框架作为数据挖掘过程执行平台,向执行框架提交代码,运用云平台的并行计算能力实现挖掘过程的并行化。
优选地,该方法还包括:
用户通过数据挖掘过程模型组件来定义符合过程逻辑模型的数据挖掘过程,并实现逻辑模型到物理模型的转换,挖掘过程中的每一步数据操作被抽象成一个数据操作节点,称为逻辑节点,通过解析逻辑节点的输入输出信息、用户配置参数、节点对应的系统组件元信息来构建物理过程模型,逻辑模型经过系统的后台解析转换成物理模型后才能执行;
用户通过模型的图形化方式来实现逻辑模型的定义,数据挖掘过程包括数据收集、数据预处理、数据挖掘和结果展示,其中在数据收集中定义一个或多个数据来源,并在执行过程中完成数据提取工作,通过定义不同的连接器组件来实现对不同数据源的数据提取;在数据预处理中包括数据清理、数据集成和数据选择,定义过滤、正则匹配组件来实现预处理;运用数据挖掘算法对经过预处理的数据执行挖掘算法,最后将执行结果以数据或图表的形式展示给用户。
优选地,该方法还包括:利用代码生成引擎完成从逻辑模型到可由执行框架执行的可执行代码的转换过程,该转换分成模型解析与代码生成;
所述模型解析包括解析逻辑模型,根据数据挖掘过程模型定义的节点信息来划分操作子流程,以数据挖掘操作节点为划分点,以子流程构造任务集,并根据流程的连接顺序来定义子流程之间的依赖关系;
所述代码生成,根据以上模型解析得到的子流程以及依赖关系生成代码,数据挖掘组件接收与其相连组件的输入输出类型信息,根据输入输出类型信息和组件代码模板,生成相应的代码,并将处理后的输出按照输出模式存储,其中组件模型包含组件ID、代码模板、用户定义参数类与组件元信息,组件ID用于标识组件的唯一性;代码模板包括了与执行平台相关的模板信息;用户自定义参数类是用户输入的参数;组件描述元信息包含组件描述、可视化图标、模板路径数据;
所述数据挖掘过程模型被转换成Java可执行代码,最后生成一个以用户定义的数据挖掘过程名称为类名的主类来控制整个数据挖掘过程,并通过配置模板提供的信息按照模型解析获得的任务依赖关系构建挖掘代码。
本发明相比现有技术,具有以下优点:
通过定义组件模型,用户可快速定义数据挖掘过程;实现对数据挖掘过程的可视化定义,以及挖掘过程到可执行代码的转换;实现了对多种数据存储系统的数据访问。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川中科腾信科技有限公司;,未经四川中科腾信科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510036086.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





