[发明专利]一种基于异步贝叶斯优化的机器学习超参优化系统及方法在审
| 申请号: | 201811588608.5 | 申请日: | 2018-12-25 |
| 公开(公告)号: | CN109376869A | 公开(公告)日: | 2019-02-22 |
| 发明(设计)人: | 王建飞;刘杰;杨诏;叶丹;钟华 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;成金玉 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 机器学习 贝叶斯 大数据 优化系统 自动化 任务调度模块 自适应确定 多机并行 计算能力 模型参数 生产实践 优化模块 并行度 池模型 优化 | ||
本发明涉及一种基于异步贝叶斯优化的机器学习超参优化系统及方法,包括:贝叶斯优化模块、模型参数池模型、Kmeans聚类模块、任务调度模块、自适应确定模型并行度模块;本发明对大数据环境下的机器学习高效的进行自动化调参,有效利用多机并行计算能力,高效的进行大数据机器学习自动化调参,从而使得人们在生产实践中可以更好地使用大数据机器学习。
技术领域
本发明涉及一种基于异步贝叶斯优化的机器学习超参优化系统及方法。属于计算机人工智能领域。
背景技术
随着云计算和大数据技术的发展,机器学习技术成为学术界和企业界的热点。然而机器学习涉及大量理论知识,同时机器学习模型包含大量参数,需要有丰富的经验才能设计一个高效的模型。为了促进机器学习技术更广泛的应用,有效降低开展机器学习应用的门槛,自动化机器学习(Automatic Machine Learning,简称AutoML)技术应运而生,即通过对机器学习各环节提供自动化技术,让初学者也可以开展机器学习模型训练和应用。
AutoML的核心是机器学习模型的自动化调参,即自动选择超参数,超参数的选择对机器学习应用非常重要,不同超参数直接影响着机器学习应用在生产实践中的效果(比如预测准确率等),机器学习模型的超参数选择过程如图1所示,由于机器学习模型通常包含大量参数,参数空间巨大,如何高效的进行调参是一个亟待解决的问题。目前常用的调参方法有:以人工调参、Grid search和Random search为代表的简单调参方法;以基于贝叶斯优化的方法等为代表的启发式方法。Grid search和Random search的示意图如图2所示。
人工调参是一种最简单又最有艺术性的调参方法。面对一个机器学习应用,可以使用人工调参的方法进行调参,从而确定模型参数,对于有经验的机器学习专家,可以基于经验值进行人工调参;对于没有经验的机器学习新人,可以进行人工“试错法”(进行足够多的实验,可以找到一组模型效果较好的参数)。通常,人工调参是一个耗时耗力的过程。
Grid search是最简单的自动化调参方法之一。Grid search的思想是简单而直接的,用户只需要定义一组参数取值范围,按照一定的间隔组合参数,对应训练模型,然后挑选出模型评价最好的模型对应的参数。通常,Grid search的参数组合空间较大,比如,对于逻辑回归应用,假设有5个参数,每个参数有10个可能的取值,那么整个组合空间将是105,对这么多模型进行训练将是一个非常耗时的过程。由于参数组合空间通常较大,Gridsearch适用于模型训练耗时非常短的场景,在大数据场景很难发挥作用。
针对Grid search的不足,一些学者研究了Random search,不同于Grid search按固定的间隔穷举参数组合,Random search随机的挑选参数组合。Bergstra等人的研究表明:一般情况下Random search的效果不会比Grid search差。Random search随机的挑选参数组合,可以一定程度上避免参数点之间的相互冗余。Random search存在的问题是:如果某两个参数点离得比较近(比如,空间中欧氏距离较小),那么这两个参数点就是互为冗余的,会降低搜索效率,对于高维特征空间(参数较多时),容易陷入某个局部区域。
上述方法都是暴力的进行参数空间搜索,搜索效率较低,在大数据环境,不再适用。贝叶斯优化是一种序列化的基于模型的优化算法(sequential model basedoptimization),贝叶斯优化将已经训练好的模型信息作为先验知识,指导产生下一个参数点,可以更快得获得最佳模型效果,相比Grid search和Random search可以大大加速整个调参过程,是目前几乎最好的机器学习模型超参优化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811588608.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息管理系统
- 下一篇:一种超导量子比特芯片





