[发明专利]一种基于改进的多样性增强模型预测方法及其系统在审
申请号: | 202210387208.8 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114818287A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 彭俊丰;朱雄泳;徐俊;陆许明 | 申请(专利权)人: | 广东第二师范学院 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F119/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李君 |
地址: | 510303 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 多样性 增强 模型 预测 方法 及其 系统 | ||
1.一种基于改进的多样性增强模型预测方法,其特征在于,包括以下步骤:
第一阶段:获取指定应用场景的样本训练数据集,并划分为第一数据集、第二数据集;
通过初始训练方法训练第一数据集,得到初始决策树;
对初始决策树进行排序,得到第一决策树队列,根据第一决策树队列择优选择若干决策树;
使用第二数据集对择优决策树进行验证,得到验证结果;
第二阶段:对于择优选择后剩下的决策树根据第二数据集进行倒序排序,生成第二决策树队列;
计算第二决策树队列的预测错误率及第二决策树队列的队列长度;
根据预测错误率和队列长度进行第二阶段循环处理,得到最终集合决策树,通过最终集合决策树得到预测结果。
2.根据权利要求1所述的一种基于改进的多样性增强模型预测方法,其特征在于,获取指定应用场景的样本训练数据集,并划分为第一数据集、第二数据集,具体为:
获取原始数据,对原始数据进行预处理,所述预处理包括:明显错误数据的删减、残缺数据的补全、数据归一化、数据编码;
对预处理后的数据进行比例分割,得到训练数据和测试数据;
对训练数据进行二次分割,得到第一数据集和第二数据集。
3.根据权利要求2所述的一种基于改进的多样性增强模型预测方法,其特征在于,所述比例分割为p%与(1-p)%;所述二次分割的分割比例为90%与10%。
4.根据权利要求1所述的一种基于改进的多样性增强模型预测方法,其特征在于,通过初始训练方法训练第一数据集,得到初始决策树,具体为:
通过Bootstrap方法对第一数据集进行训练,得到OOBSample和初始决策树;
其中,训练过程为普通决策树生成过程:
步骤1:设结点的训练数据集为D,对每一个特征A,对其取的每个值a,根据样本点对A=a测试为“是”或“否”;将D分割成D1和D2两部分,并计算GiNi(D,A);
步骤2:在所有特征A以及其所有的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点;从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去;
步骤3:对两个子结点递归地调用步骤1和步骤2,直至满足停止条件;
步骤4:生成CART决策树T;
其中,算法停止计算的条件是结点中的样本个数小于预定阈值,或样本集的基尼指数小于预定阈值。
5.根据权利要求4所述的一种基于改进的多样性增强模型预测方法,其特征在于,对初始决策树进行排序,得到第一决策树队列,根据第一决策树队列择优选择若干决策树,具体为:
对初始决策树按照错误率从大到小进行排序,得到第一决策树队列;
对第一决策树队列按照排列情况,择优选择M棵决策树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东第二师范学院,未经广东第二师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210387208.8/1.html,转载请声明来源钻瓜专利网。