[发明专利]一种基于改进的多样性增强模型预测方法及其系统在审

申请号：	202210387208.8	申请日：	2022-04-14
公开（公告）号：	CN114818287A	公开（公告）日：	2022-07-29
发明（设计）人：	彭俊丰;朱雄泳;徐俊;陆许明	申请（专利权）人：	广东第二师范学院
主分类号：	G06F30/20	分类号：	G06F30/20;G06F119/02
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李君
地址：	510303 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进多样性增强模型预测方法及其系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于改进的多样性增强模型预测方法及其系统，包括：第一阶段：获取指定应用场景的样本训练数据集并划分为第一数据集、第二数据集；训练第一数据集得到初始决策树；对初始决策树进行排序得到第一决策树队列，根据第一决策树队列择优选择若干决策树；使用第二数据集对择优决策树进行验证；第二阶段：对剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列；计算第二决策树队列的预测错误率及队列长度；根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树，进而得到预测结果。本发明的模型预测精确度高、预测结果稳定性好、预测速度快、方法预测所需要的样本占内存空间小，可用于各种数据分析建模的场景。

技术领域

本发明涉及数据处理的研究领域，特别涉及一种基于改进的多样性增强模型预测方法及其系统。

背景技术

人工智能模型作为通用AI框架的核心组件，一旦收集到各个应用领域的数据，就可以预测各个领域的事件分类。不过各个应用领域的数据量较大，导致预测速度慢。传统的预测方法缺点主要体现在：

(1)预测准确度不高，容易产生误判。模型误判是一个严肃的问题，可能带来巨大的人力、物力、财力上的损失。

(2)预测结果的稳定性不强，容易受到各种数据的影响。如采集的数据中阳性阴性样本的数据不平衡、年龄上的不平衡，老人居多，幼儿居少；或者数据采集中有一些异常点的影响；高稳定性的方法要确保预测同一条数据的输出结果必须是可复现的。

(3)预测速度达不到要求；由于常见的人工智能模型往往比较庞大，导致传统模型的预测速度慢，这可能导致模型使用方等待时间变长。

(4)内存消耗过大；一般情况下，越大的模型的预测性能越好，但是越大的模型消耗算力越多，对于普通计算硬件，巨型模型的训练速度缓慢，难以满足在边缘设备部署的需要。

目前功能强大的AI技术也难以处理如此庞大的数据，如何选择一个规模更小的样本的同时保证精度不变，这是人工智能落地时特别需要关注的一个方面。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于改进的多样性增强模型预测方法及其系统，通过数据采集模块、数据分割技术、OOB优化算法、基于对数损失的贪心向后搜索优化算法、模型融合技术、最后用DERF(Diversity Enhancement RandomForest)模型进行数据预测，从而减轻使用者在预测各个领域时所消耗的精力、提高预测结果的准确性。

本发明的第一目的在于提供一种基于改进的多样性增强模型预测方法；

本发明的第二目的在于提供一种基于改进的多样性增强模型预测系统。

本发明的第一目的通过以下的技术方案实现：

一种基于改进的多样性增强模型预测方法，包括以下步骤：

第一阶段：获取指定应用场景的样本训练数据集，并划分为第一数据集、第二数据集；

通过初始训练方法训练第一数据集，得到初始决策树；

对初始决策树进行排序，得到第一决策树队列，根据第一决策树队列择优选择若干决策树；

使用第二数据集对择优决策树进行验证，得到验证结果；

第二阶段：对于择优选择后剩下的决策树根据第二数据集进行倒序排序，生成第二决策树队列；

计算第二决策树队列的预测错误率及第二决策树队列的队列长度；

根据预测错误率和队列长度进行第二阶段循环处理，得到最终集合决策树，通过最终集合决策树得到预测结果。

进一步地，获取指定应用场景的样本训练数据集，并划分为第一数据集、第二数据集，具体为：