[发明专利]随机森林的训练方法、装置、存储介质和电子设备有效

专利信息
申请号: 201811557766.4 申请日: 2018-12-19
公开(公告)号: CN109726826B 公开(公告)日: 2021-08-13
发明(设计)人: 高睿 申请(专利权)人: 东软集团股份有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06N3/00
代理公司: 北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人: 魏嘉熹;南毅宁
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机 森林 训练 方法 装置 存储 介质 电子设备
【说明书】:

本公开涉及一种随机森林的训练方法、装置、存储介质和电子设备,该方法包括:在第一训练数据中确定n组训练数据集;通过该第一训练数据的描述数据评判已训练出的n棵树,获取n个预测结果;根据n个预测结果的正确率和预设阈值对n棵树进行删除,获取m棵树;根据m棵树中每棵树对应的权重对m棵树进行投票,以获取目标树;将该目标树对应的预测结果和该描述数据合成为第二训练数据;将该第二训练数据作为该第一训练数据,循环执行上述步骤,直至n个预测结果的正确率都大于或等于该预设阈值,获取随机森林。能够在对随机森林的多次训练过程中持续对整体训练数据进行优化,在避免训练过程中具备单一特征的树增多的同时,提高分类预测的精确度。

技术领域

本公开涉及机器学习领域,具体地,涉及一种随机森林的训练方法、装置、存储介质和电子设备。

背景技术

随机森林是一个包含多个决策树的分类器,并且其输出的预测结果是由每棵树输出的预测结果的众数而定。该决策树是一种用于监督学习的树结构模型。在监督学习中,可以先给定一组样本,每个样本都包含一组属性(描述数据)和一个类别(预测结果),这些类别是事先确定的,通过学习这一组样本可以得到一个具备分类功能的决策树,该决策树能够对新出现的对象给出正确的分类(输出预测结果)。相关技术中,在对随机森林进行训练时,通常通过全量训练数据的一部分数据对随机森林中的每棵决策树进行一次训练,再在对新数据进行分类预测时通过投票方式获取得票数最多的预测结果。这种分类方式可以避免分类预测中的过拟合现象,提高分类器的泛化性。但只经历单次训练的决策树的预测正确率不高,无法应对训练过程中训练数据中数据特征不均衡(某个分类的数据极多)的情况,进而造成整个分类预测的精确度降低的问题。

发明内容

为克服相关技术中存在的问题,本公开的目的是提供一种随机森林的训练方法、装置、存储介质和电子设备。

为了实现上述目的,根据本公开实施例的第一方面,提供一种随机森林的训练方法,所述方法包括:

在第一训练数据中确定n组训练数据集,所述第一训练数据包括待预测事件的同类事件对应的描述数据,以及所述同类事件的预测结果;

通过所述描述数据对由所述n组训练数据集训练出的n棵树进行评判,以获取所述n棵树对应的n个预测结果;

根据所述n个预测结果的正确率和预设阈值对所述n棵树执行删除操作,以获取树集合,所述树集合包含m棵树,其中,m小于或等于n;

根据所述m棵树中每棵树对应的投票权重对所述m棵树进行第一投票操作,以获取目标树;

将所述目标树对应的预测结果和所述描述数据合成为第二训练数据;

将所述第二训练数据作为所述第一训练数据,循环执行从所述在全量训练数据中确定n组训练数据集到所述将所述目标树对应的预测结果和所述描述数据合成为第二训练数据的步骤,直至所述n个预测结果的正确率都大于或等于所述预设阈值,以获取随机森林,所述随机森林包含在一个或多个循环执行过程中执行所述删除操作后获取到的所有树集合。

可选的,所述方法还包括:

将所述待预测事件对应的描述数据作为所述随机森林的输入,以获取所述随机森林中的多棵树输出的多个预测结果;

通过第二投票操作确定所述多个预测结果中的出现次数最多的预测结果,作为所述待预测事件的预测结果。

可选的,所述通过所述描述数据对由所述n组训练数据集训练出的n棵树进行评判,以获取所述n棵树对应的n个预测结果,包括:

通过所述n组训练数据集训练出n棵树;

将所述描述数据分别作为所述n棵树中每棵树的输入,以获取所述n棵树输出的所述n个预测结果。

可选的,所述根据所述n个预测结果的正确率和预设阈值对所述n棵树执行删除操作,以获取树集合,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811557766.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top