[发明专利]一种机器学习算法自动选择方法和系统有效

申请号：	201711354616.9	申请日：	2017-12-15
公开（公告）号：	CN108009643B	公开（公告）日：	2018-10-30
发明（设计）人：	王建民;龙明盛;付博;黄向东	申请（专利权）人：	清华大学
主分类号：	G06N99/00	分类号：	G06N99/00
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	苗青盛
地址：	100084 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种机器学习算法自动选择方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种机器学习算法选择方法，其特征在于，包括：

基于算法选择知识库，通过决策树选择法，确定待选算法集合；

基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数，确定所述待选算法集合中的每一待选算法的训练测试次序；

按照所述训练测试次序，基于确定的训练集，依次对所述待选算法集合中的待选算法进行训练，获取每一待选算法对应的训练模型，基于每一待选算法对应的训练模型，对确定的测试集进行预测，获取每一待选算法的与所述多个历史参数对应的多个综合评分参数；

基于所述多个综合评分参数以及所述多个预设系数，获取所述待选算法集合中每一待选算法的综合评分；

将综合评分最高的一个或多个待选算法作为机器学习算法选择结果；

所述基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数，确定所述待选算法集合中的每一待选算法的训练测试次序进一步包括：

基于多个历史参数以及与所述多个历史参数各自对应的多个预设系数，通过下式获取任一待选算法的历史评分：

F′＝aI′+bO′+cS′+dT′+eA′；

其中，F′为任一待选算法的历史评分，a为预设的数据输入资源消耗值系数，I′为历史数据输入资源消耗值，b为预设的数据输出资源消耗值系数，O′为历史数据输出资源消耗值，c为预设的训练预测内存系数，S′为历史训练预测内存，d为预设的训练预测时间系数，T′为历史训练预测时间，e为预设的预测准确度系数，A′为历史预测准确度；

将所有的待选算法的历史评分按照分数由高至低排列，将排列好的待选算法的次序作为待选算法的训练测试次序。

2.根据权利要求1所述的选择方法，其特征在于，所述基于算法选择知识库，通过决策树选择法，确定待选算法集合之前还包括：

确定所述待选算法的所处最大类别，所述所处最大类别包括：监督学习类、半监督学习类和无监督学习类；

相应地，所述基于算法选择知识库，通过决策树选择法，确定待选算法集合进一步包括：

基于算法选择知识库中的决策树，通过确定的所述待选算法的所处最大类别，逐层选取所述待选算法，逐层选取的一个或多个所述待选算法作为所述待选算法集合。

3.根据权利要求1所述的选择方法，其特征在于，所述按照所述训练测试次序，基于确定的训练集，依次对所述待选算法集合中的待选算法进行训练，获取每一待选算法对应的训练模型，基于每一待选算法对应的训练模型，对确定的测试集进行预测，获取每一待选算法的与所述多个历史参数对应的多个综合评分参数进一步包括：

所述按照所述训练测试次序，基于确定的训练集，依次对所述待选算法集合中的待选算法进行训练，获取每一待选算法对应的训练模型，并获取每一待选算法的训练数据输入资源消耗值、训练数据输出资源消耗值、训练时间和训练内存；

基于每一待选算法对应的训练模型，对确定的测试集进行预测，获取每一待选算法的预测数据输入资源消耗值、预测数据输出资源消耗值、预测时间、预测内存和预测准确度；

对所述训练数据输入资源消耗值和所述预测数据输入资源消耗值加权求和，获取数据输入资源消耗值；

对所述训练数据输出资源消耗值和所述预测数据输出资源消耗值加权求和，获取数据输出资源消耗值；

对所述训练时间和所述预测时间加权求和，获取训练预测时间；

对所述训练内存和所述预测内存加权求和，获取训练预测内存；