[发明专利]一种面向分布式数据挖掘工作流的调度系统在审
| 申请号: | 202110650899.1 | 申请日: | 2021-06-10 |
| 公开(公告)号: | CN113553353A | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 李晖;李一水;周彧 | 申请(专利权)人: | 贵州优联博睿科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/25;G06F16/27;G06F9/445;G06Q10/04;G06Q10/06;G06Q10/10 |
| 代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 彭随丽 |
| 地址: | 550081 贵州省贵阳*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 分布式 数据 挖掘 工作流 调度 系统 | ||
1.一种面向分布式数据挖掘工作流的调度系统,其特征在于,包括功能模块、搜索模块、控件模块、画布模块,所述功能模块用于实现用户通过功能区对任务进行的操作,包括新建、保存、打开工作流,交互式执行工作流,删除控件操作;
所述搜索模块用于实现用户通过搜索区对控件搜索,用户在搜索栏中输入控件名称,快速查找出所需要的控件;
所述控件模块用于提供常用的数据加载、数据预处理和数据挖掘控件,用户通过控件区选择需要的控件;
所述画布模块对应于构建数据挖掘工作流任务的画布区,通过鼠标选中控件区的控件拖拽到画布,点击控件相对应的输入和输出则出现一条曲线将两个控件连接在一起,控件两两相连即构建一个数据挖掘工作流任务。
2.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述数据挖掘工作流的调度系统采用Workflow工作流框架来实现数据挖掘任务自动化执行。
3.根据权利要求2所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述Workflow工作流框架包含以下表结构信息:
控件配置表,所述控件配置表用于存放配置的相关信息;
控件输入端配置表,所述控件输入端配置表用于存放控件输入端配置的相关信息;
控件输出端配置表,所述控件输出端配置表用于存放控件输出端配置的相关信息;
目录表,所述目录表用于存放控件目录的相关信息;
控件表,所述控件表用于存放控件的相关信息;
工作流表,所述工作流表用于存放工作流的相关信息。
4.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述搜索模块支持模糊搜索,在搜索栏中输入K,控件区中可查找出与K有关的控件。
5.根据权利要求4所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述控件包括:
加载数据集,其用于选择数据集,加载数据集页面会显示该数据集的记录数、属性列及属性列的类型;
抽样,其可设置分层属性、抽样比例参数;
拆分数据,其将数据集分为训练集和测试集,可设置拆分比例、分层抽样分层属性、是否可重复抽样,输出分为两部分:train为训练集、test为测试集;
选择属性,其可设置特征属性、分组属性、标记属性;
线性回归,其可设置算法名称;
逻辑回归,其可设置优化器、迭代次数;
K-Means,其可设置簇数量、最大迭代次数、最小质心、聚合函数参数;
支持向量积,其可设置SVM类型、核函数、初始学习率数;
决策树,其可设置树的最大深度、最小分支节点数参数;
随机森林,其可设置树数量、树的最大深度、最小分支节点数参数;
预测,其连接训练好的模型和测试集,对测试集进行预测以表格的形式展示预测结果;
数据查看器:以表格的形式展示数据。
6.根据权利要求1所述的面向分布式数据挖掘工作流的调度系统,其特征在于,还包括副调度系统,所述副调度系统部署在基于KVM虚拟机搭建的集群环境中。
7.根据权利要求6所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述副调度系统包括:前端模块、任务调度模块和任务执行模块,所述前端模块用于以默认参数运行的方式执行数据挖掘工作流任务;所述任务调度模块用于从数据库中获取并行子任务,再根据LTF调度算法对子任务进行调度;所述任务执行模块用于从任务队列中获取子任务并将其交给Greenplum集群执行。
8.根据权利要求7所述的面向分布式数据挖掘工作流的调度系统,其特征在于,所述Greenplum集群执行步骤如下:集群中的主节点根据群集资源队列的信息,依次从任务调度模块接收任务,并任务分配系统资源,生成任务执行计划分发到各子节点,子节点负责任务的执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州优联博睿科技有限公司,未经贵州优联博睿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110650899.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





