[发明专利]随机森林的训练方法、装置、存储介质和电子设备有效
| 申请号: | 201811557766.4 | 申请日: | 2018-12-19 |
| 公开(公告)号: | CN109726826B | 公开(公告)日: | 2021-08-13 |
| 发明(设计)人: | 高睿 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/00 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 随机 森林 训练 方法 装置 存储 介质 电子设备 | ||
1.一种随机森林的训练方法,其特征在于,所述方法包括:
在第一训练数据中确定n组训练数据集,所述第一训练数据包括待预测事件的同类事件对应的描述数据,以及所述同类事件的预测结果,其中,所述待预测事件为水果分类事件,所述描述数据包括与水果相关的数据,所述预测结果包括水果类别;
通过所述描述数据对由所述n组训练数据集训练出的n棵树进行评判,以获取所述n棵树对应的n个预测结果;
根据所述n个预测结果的正确率和预设阈值对所述n棵树执行删除操作,以获取树集合,所述树集合包含m棵树,其中,m小于或等于n;
根据所述m棵树中每棵树对应的投票权重对所述m棵树进行第一投票操作,以获取目标树;
将所述目标树对应的预测结果和所述描述数据合成为第二训练数据;
将所述第二训练数据作为所述第一训练数据,循环执行从所述在全量训练数据中确定n组训练数据集到所述将所述目标树对应的预测结果和所述描述数据合成为第二训练数据的步骤,直至所述n个预测结果的正确率都大于或等于所述预设阈值,以获取随机森林,所述随机森林包含在一个或多个循环执行过程中执行所述删除操作后获取到的所有树集合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待预测事件对应的描述数据作为所述随机森林的输入,以获取所述随机森林中的多棵树输出的多个预测结果;
通过第二投票操作确定所述多个预测结果中的出现次数最多的预测结果,作为所述待预测事件的预测结果。
3.根据权利要求1所述的方法,其特征在于,所述通过所述描述数据对由所述n组训练数据集训练出的n棵树进行评判,以获取所述n棵树对应的n个预测结果,包括:
通过所述n组训练数据集训练出n棵树;
将所述描述数据分别作为所述n棵树中每棵树的输入,以获取所述n棵树输出的所述n个预测结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述n个预测结果的正确率和预设阈值对所述n棵树执行删除操作,以获取树集合,包括:
当所述n个预测结果中存在正确率小于所述预设阈值的u个预测结果时,删除所述u个预测结果对应的u棵树,以获取包含m棵树的树集合,其中,m=n-u;或者,
当所述n个预测结果的正确率都大于或等于所述预设阈值时,获取包含m棵树的树集合,其中,m=n。
5.根据权利要求1所述的方法,其特征在于,所述根据所述m棵树中每棵树对应的投票权重对所述m棵树进行第一投票操作,以获取目标树,包括:
根据所述每棵树的预测结果的正确率确定所述每棵树的误差率;
将所述每棵树的误差率作为预设的投票权重计算公式的输入,以得到所述投票权重计算公式输出的所述每棵树的投票权重;
将所述m棵树划分为多个投票组,其中,每个投票组包含具备相同的预测结果的多棵树,所述多棵树的数量为所述每个投票组对应的投票数;
获取所述投票数和所述每个投票组中任一棵树对应的投票权重的乘积,作为所述每个投票组的得票率;
获取具备最高得票率的投票组中的任一棵树,作为所述目标树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811557766.4/1.html,转载请声明来源钻瓜专利网。





