[发明专利]机器学习算法的参数调优方法及系统在审

申请号：	202010036816.5	申请日：	2020-01-14
公开（公告）号：	CN111260078A	公开（公告）日：	2020-06-09
发明（设计）人：	王宏志;欧龙燊;张恺欣;霸晨民;陈泊舟	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/08;G06N5/02
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	高倩
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器学习算法参数方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种机器学习算法的参数调优方法及系统，具有自动化、快速高效及具有普适性，属于机器学习领域。本发明包括：S1、输入用户数据集和待调参数算法，提取用户数据集的特征；S2、在神经网络数据库中，找到待调参数算法的神经网络，将S1提取的特征输入该神经网络中，该神经网络输出待调参数算法的参数；所述神经网络数据库包括根据各种机器学习算法建立及训练好的神经网络，具体构建方法为：构建适用于机器学习算法的数据集的知识库；提取知识库中每个数据集的特征；找到在各数据集上运行各机器学习算法的最优参数；建立每个机器学习算法的神经网络，利用数据集的特征和对应的最优参数作为训练集对对应的神经网络进行训练，获得训练好的神经网络。

技术领域

本发明属于机器学习领域。

背景技术

现有机器学习算法相关参数调优技术主要包括网格搜索和遗传算法，其中，网格搜索是对每一个参数设定一些候选值，在寻找多个参数的最优组合时，对每一种候选值的组合进行遍历，训练多个模型，取其中表现最优的模型中的参数组合作为结果，例如公开号为CN107844837A的发明专利《针对机器学习算法进行算法参数调优的方法及系统》。

遗传算法是选取一定数量的候选解，将其抽象为染色体，通过适应度评判选取候选解中的一些较优解，让它们进行自由组合和突变，产生下一代种群，将下一代种群作为新的候选解；不断进行迭代，例如公开号为CN201811038917.5的发明专利《一种超参数调优方法、装置及设备》。

使用网格搜索进行参数调优，不足之处在于：参数的候选值是人为设定的，做不到完全“自动化”；候选值的选取依靠经验，需要用户具有相关背景知识，并且没有充分利用用户数据集；需要训练众多模型，时间代价大，在参数数目众多时这一缺陷尤为明显。

使用遗传算法进行参数调优，不足之处在于：由于需要考虑对具体问题的解和染色体的抽象关系(及编码、解码过程)，遗传算法的编程实现较为复杂；遗传算法本身包含众多超参数，如交叉率和变异率，并且这些参数的选择严重影响解的品质，而目前这些参数的选择大部分是依靠经验；没有能够及时利用用户数据集的特征，故算法的搜索速度比较慢，要得要较精确的解需要较多的训练时间；算法对初始种群的选择有依赖性；算法的并行机制的潜在能力没有得到充分的利用。

所以现有机器学习算法相关参数调优方法的不足之处在于：需要用户提前设定一些候选值，做不到“自动化”，且需要用户具有相关背景知识；采用“遍历”思路，时间开销大。

发明内容

针对以上不足，本发明提供一种具有自动化、快速高效及具有普适性的机器学习算法的参数调优方法及系统。

本发明的一种机器学习算法的参数调优方法，所述方法包括：

S1、输入用户数据集和待调参数算法，提取用户数据集的特征；

S2、在神经网络数据库中，找到待调参数算法的神经网络，将S1提取的特征输入该神经网络中，该神经网络输出待调参数算法的参数；

所述神经网络数据库包括根据各种机器学习算法建立及训练好的神经网络，具体构建方法为：

构建适用于机器学习算法的数据集的知识库；

提取知识库中每个数据集的特征；

找到在各数据集上运行各机器学习算法的最优参数；

建立每个机器学习算法的神经网络，利用数据集的特征和对应的最优参数作为训练集对对应的神经网络进行训练，获得训练好的神经网络。

作为优选，所述方法还包括：