[发明专利]一种基于Mahout的机器学习服务组装方法有效
| 申请号: | 201611203680.2 | 申请日: | 2016-12-23 |
| 公开(公告)号: | CN107169572B | 公开(公告)日: | 2018-09-18 |
| 发明(设计)人: | 郭文忠;黄益成;陈星 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 mahout 机器 学习 服务 组装 方法 | ||
1.一种基于Mahout的机器学习服务组装方法,其特征在于,包括以下步骤:
步骤S1:将不同格式的数据进行预处理,转换成模型训练使用的特征向量;
步骤S2:进行聚类模型、分类模型及协同过滤推荐模型训练;
步骤S3:对训练完成的模型进行评估;
步骤S4:将步骤 Sl 、步骤 S2 和步骤 S3 三个阶段以 Mahout 算法库中算子的形式进行统一的封装,使其成为满足Oozie工作流平台调用规范的一系列服务;
步骤S5:根据用户描述的所要使用的机器学习方法以及要进行处理的数据的格式,组装出多条满足需求的机器学习工作流路径;
步骤S6:当这些机器学习工作流在通过Oozie在Hadoop平台上运行结束之后,每一条工作流的模型评估算子将会给出工作流的评估结果;用户根据此评估结果,选择机器学习工作流;
步骤S7:将用户已经选定的机器学习工作流存储到知识库中,以供用户在此之后复用;
步骤S3中训练完成的模型评估包括以下步骤:
步骤S31:聚类模型评估采用簇间距离及聚类输出检查进行评估;
步骤S32:分类模型评估采用正确率进行评估,若分类模型采用朴素贝叶斯算法,评估还包括混淆矩阵;混淆矩阵是分类模型输出结果和真实目标值的交叉表;混淆矩阵的每一行对应真实目标值,每一列对应分类模型的输出值;
步骤S33:协同过滤推荐模型评估采用模型的准确率进行评估;
步骤S2中的协同过滤推荐模型采用矩阵因式分解协同过滤算法及基于物品的协同过滤推荐算法的协同过滤推荐模型。
2.根据权利要求1所述的基于Mahout的机器学习服务组装方法,其特征在于:步骤S1中的数据预处理包括:SeqDirectory、Lucene2Seq、Seq2Sparse、Arff.Vector、Split、SplitDataSet、Describe及Hive。
3.根据权利要求1所述的基于Mahout的机器学习服务组装方法,其特征在于:步骤S2中的聚类模型包括采用Canopy、K-Means、模糊K-Means、LDA和谱聚类五个聚类算法的聚类模型。
4.根据权利要求1所述的基于Mahout的机器学习服务组装方法,其特征在于:步骤S2中的分类模型包括采用朴素贝叶斯算法及随机森林算法的分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611203680.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:煤矿开采用鼻罩
- 下一篇:一种动力电池箱灭火装置





