[发明专利]利用嵌套机器学习模型来执行预测的方法及系统在审
申请号: | 202110772622.6 | 申请日: | 2017-05-05 |
公开(公告)号: | CN113610240A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 陈雨强;戴文渊;杨强;郭夏玮;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 嵌套 机器 学习 模型 执行 预测 方法 系统 | ||
1.一种利用嵌套机器学习模型来执行预测的方法,其中,所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型,所述方法包括:
(A)获取预测数据记录;
(B)基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;
(C)将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型,以得到嵌套机器学习模型针对预测样本的预测结果。
2.如权利要求1所述的方法,其中,所述上层模型包括一个决策树子模型,并且,所述下层模型包括多个线性子模型,
其中,每个线性子模型对应于所述决策树子模型的一个叶子节点。
3.如权利要求1或2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的取值连续性和/或取值空间规模来生成预测样本的上层特征子集和预测样本的下层特征子集。
4.如权利要求3所述的方法,其中,上层特征子集涵盖取值为连续值的全部特征,并且,下层特征子集涵盖取值为非连续值的全部特征;
或者,上层特征子集涵盖取值为连续值的全部特征连同至少一部分取值为非连续值的特征,并且,下层特征子集涵盖其余取值为非连续值的特征。
5.如权利要求1或2所述的方法,其中,在步骤(B)中,基于预测数据记录的属性信息来生成预测样本的特征,并根据特征的缺失性来生成预测样本的上层特征子集和预测样本的下层特征子集,其中,特征的缺失性指示该特征是否基于预测数据记录相对于训练数据记录的缺失属性信息而生成。
6.如权利要求5所述的方法,其中,上层特征子集涵盖全部非缺失特征,并且,下层特征子集涵盖全部缺失特征和全部非缺失特征。
7.一种利用嵌套机器学习模型来执行预测的系统,其中,所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型,所述系统包括:
预测数据记录获取装置,用于获取预测数据记录;
预测特征子集产生装置,用于基于预测数据记录的属性信息来生成与预测数据记录对应的预测样本的多个特征子集;
预测装置,用于将预测样本的多个特征子集分别提供给嵌套机器学习模型所包括的上层模型和下层模型,以得到嵌套机器学习模型针对预测样本的预测结果。
8.如权利要求7所述的系统,其中,所述上层模型包括一个决策树子模型,并且,所述下层模型包括多个线性子模型,
其中,每个线性子模型对应于所述决策树子模型的一个叶子节点。
9.一种训练嵌套机器学习模型的方法,其中,所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型,所述方法包括:
(a)获取训练数据记录;
(b)基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及
(c)根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型,其中,上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。
10.一种训练嵌套机器学习模型的系统,其中,所述嵌套机器学习模型包括根据上下层嵌套框架训练出的上层模型和下层模型,所述系统包括:
训练数据记录获取装置,用于获取训练数据记录;
训练特征子集产生装置,用于基于训练数据记录的属性信息来生成与训练数据记录对应的训练样本的多个特征子集;以及
训练装置,用于根据上下层嵌套框架来训练嵌套机器学习模型所包括的上层模型和下层模型,其中,上层模型和下层模型之中的每一个基于各自的特征子集来进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110772622.6/1.html,转载请声明来源钻瓜专利网。