[发明专利]基于PCA-XGBoost-IRF的作业车间实时调度方法有效

申请号：	202110439410.6	申请日：	2021-04-23
公开（公告）号：	CN113256066B	公开（公告）日：	2022-05-06
发明（设计）人：	袁逸萍;熊攀;阿地兰木·斯塔洪;任年鲁	申请（专利权）人：	新疆大学
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06Q50/04;G06K9/62;G06N20/00
代理公司：	南京天华专利代理有限责任公司 32218	代理人：	张磊
地址：	830001 新疆维吾***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 pca xgboost irf 作业车间实时调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于PCA-XGBoost-IRF的作业车间实时调度方法，包括以下步骤：

S1：规范数据样本构建

管理人员从信息系统和服务器端调度规则的执行记录中获取不同调度决策时刻对应的生产系统状态与调度规则组成的数据对，构成用于调度知识挖掘的规范样本数据，即CSD＝{A1,A2,A3,...,A64,Rule}；

S2：样本数据预处理

S21：对样本数据进行异常值处理；

车间状态信息的原始样本数据存在噪音，首先，使用相关数据分析工具对特征指标进行描述性统计分析，其次，基于箱型图查找异常值，最后，使用列均值填充缺失值、基于四分位箱线图进行异常值剔除方式对原始数据进行初步处理，从而得到数据类型规整的规范样本数据CSD；

S22：对样本数据进行类别不平衡处理；

为了避免训练样本存在类别不平衡而导致机器学习模型失效的问题，结合实际需求，采用合成少数类过采样技术SMOTE对CSD进行处理；SMOTE算法执行流程为：

Step1:对于少数类中每一个样本x_i，以欧氏距离为标准计算它到少数类样本集S_min中所有样本的距离，得到其k近邻；

Step2:根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x_i，从其k近邻中随机选择若干个样本，假设选择的近邻为

Step3:对于每一个随机选出的近邻分别与原样本按照公式(1)构建新的样本；

通过类别不平衡处理处理后得到平衡数据集BDS；

S23：对样本数据进行归一化处理；

综合考虑生产车间状态属性统计特点及车间生产状态的数据类型，采用Max-Min离差标准化对平衡数据集BDS进行归一化处理，表达式如公式(2)所示，把所有属性数据映射到[0,1]之间，避免在训练时出现某些维度占主导地位而导致的训练速度减慢，通过归一化处理得到预处理数据集PDS；

式中，x_i'表示x_i归一化变换后的数据，x_max代表x_i的最大值，x_min代表x_i的最小值；

S24：对PDS进行切分处理以满足决策模型构建的输入要求；

将PDS划分为训练数据Train Set和测试数据Test Set，其中训练数据Train Set比重占75％，测试数据Test Set比重占25％；同时将训练数据Train Set作为整个决策模型的输入；

S3：对训练数据Train Set进行特征工程处理

S31：对训练数据Train Set进行基于主成分分析法PCA的特征提取降维处理得到低维数据集LDS，具体如下：

(1)对步骤S23中归一化后的样本数据求出协方差矩阵C；

(2)对协方差矩阵C求出其特征向量和特征值；

(3)以特征值大小按行排列相应的特征向量，舍弃特征值小的特征向量行，将主成分累计贡献率阈值设置为99％，以实现既保留了关键信息，又降低了训练数据的维数，从而间接提高决策模型的训练效率与调度性能；

(4)通过降维处理得到低维数据集LDS；

S32：对低维数据集LDS进行基于XGBoost的特征重要度计算；

S321：XGBoost模型分类过程；

XGBoost模型分类具体的推导过程如下：

基于特征提取得到样本数据集D＝{(x_i,y_i)|i＝1,2,...,n；x_i∈R^m；y_i∈R}，其中有n个样本，每个样本有m个特征，并且对应一个目标值y_i，假如有K棵回归树，则模型表达式如公式(3)所示：

式中：f_k是一棵回归树；F对应了所有回归树的集合；f_k(x_i)代表第k棵树对数据集中第i个样本的计算分数；

目标函数如公式(4)所示：

式中：l(g)是误差函数，体现了模型拟合训练数据的程度；

为了防止过拟合，定义了正则化项Ω(f_k)以惩罚复杂模型；Ω(f_k)的表达式为如公式(5)所示：

式中：γ和λ表示对模型的惩罚系数；T和w分别表示第k棵树的叶子数目和叶子的权重；

由于树模型式(3)为加法模型，利用前向分步算法对目标函数训练，设为第i个样本在第t次迭代时的预测值，因此添加f_t(x_i)以最优化以下目标函数如公式(6)所示：

对式(6)使用二阶泰勒展开简化该函数后去掉常数项如公式(7)、(8)所示：

式中：g′_i和g″_i分别为损失函数的一阶导数和二阶导数，目标函数如公式(9)所示：

式中：I_j＝{i|q(x_i)＝j}代表叶子j的样本组；

将目标函数转换为一个关于w_j的一元二次方程求最小值的问题，假设树的结构q固定，计算出叶子j的最优权重如公式(10)、(11)所示：

然后计算出相应的最优目标值如公式(12)所示：

式中，f_obj表示树的结构分数，值越小表示数的结构越好；

S322：特征的重要度统计；

XGBoost模型集成若干棵回归树后，每棵树的节点作为一次特征分裂，将某特征被选为分裂特征的次数作为该特征的重要度，并通过重要度计算处理得到重要度评估数据IED；

S33：对重要度评估数据IED进行特征选择处理，使得评价函数值达到最优；具体内容为：

Step1：基于所有特征进行XGBoost分类；

Step2：基于生成的模型过程中的信息，得到特征变量的重要性FI并按降序排序；

Step3：采用SBS算法依次从当前特征集中剔除当前轮迭代中重要性得分最低的特征；

Step4：将剩余的特征重新进行新一轮的预测和排序，记录每轮迭代过程中基于RF模型的预测分类准确率Acc，第i次准确率则被记为Acc_i，将分类准确率作为特征选择评价函数值，用于确定预测分类准确率最高的保留特征子集；

Step5：重复步骤Step3和Step4直到所有特征都被选择；

Step6：搜索每轮迭代过程中记录的Acc_i，考察所有子集的分类情况，选择Acc_i值高同时特征数量少的子集作为最优特征子集；

Step7：输出最优特征子集OFS，并将最优特征子集OFS作为随机森林决策模型构建的输入；

S4：IRF决策模型构建

S41：RF模型构建；

随机森林算法RF核心是以多棵决策树为基础的集成分类器，通过采取多个不同的训练样本子集来加大分类模型之间的相异性，从而能够提高该模型的泛化能力以及预测能力；首先，基于Bootstrap随机重采样技术从训练数据Train Set中有放回地抽取训练实例，形成n个新的训练实例集合；然后，每个训练实例集合分别从特征集中随机选择m个特征作为决策树分裂的特征属性，并计算最佳分类方式；最后，通过训练得到n棵决策树；由这n棵决策树组合成的RF模型为后续对模型进行改进操作提供了模型基础；

S42：基于两种优化策略对随机森林算法RF模型进行改进，并将改进后模型重命名为IRF模型；

S421：对随机森林算法RF模型增加避免相似决策树的优化策略；

通过随机森林算法RF从历史相关数据中学习调度知识SK，假设调度知识SK是对真实调度规则y的一种估计所以在理论上来说和y之间是存在误差；和y之间的平方误差计算公式如式(13)所示；式中δ²是不可避免的，但可以通过减少方差或偏差来减少算法的误差，从而提高随机森林算法的性能；

式中，δ²为噪声，它指的是算法所能达到的期望泛化误差的下界；为方差，它刻画了由于数据扰动所造成的影响；为偏差，它描述了学习算法的期望预测与真实结果的偏离程度；

随机森林算法通过Bagging策略生成的决策树具有近似的分布，因此随机森林算法的方差看作是一组同分布的随机变量的方差，其方差计算公式如式(14)所示：

式中，n为随机森林中决策树的数量；T_i表示第i棵决策树；ρ代表决策树之间的相关性；θ²代表每棵决策树的方差；

从式(14)可知，当随机森林所包含的决策树的数量大时，若能减少决策树之间的相关性ρ，就能减小森林算法的方差，从而有效提高算法的性能；

采用避免相似决策树的优化策略以减少决策树之间的相关性ρ，并最终达到提高随机森林算法性能的目的，该优化策略相似度的计算公式如式(15)，决策树之间的相似度取决于它们在使用相同特征属性并对测试实例产生相同预测次数的百分比，为了使得本方法具有更好的鲁棒性，规定如果两棵决策数之间的相似度大于60％，即被认为是相似的决策树，然后删除测试精确度低的决策树；

式中，DT₁与DT₂表示进行相似度计算的两棵决策树；count表示DT₁与DT₂对测试实例分类结果相同的次数；r_1n与r_2n表示第n次分类结果相同时，DT₁与DT₂用到的特征属性，c表示分类结果；当r_1n＝r_2n时，即DT₁与DT₂用相同的特征属性得到相同的分类结果时，I(r_1n·c,r_2n·c)＝1，否则结果为0，N_t表示测试实例的个数；

S422：对上述优化后的RF模型增加决策树加权投票的优化策略，并将进一步优化后的模型重命名为IRF模型；

采用加权投票原则对上述优化后的RF算法进行改进：

在决策树的生成过程中，使用bagging方法从样本总数为N的原始训练集中有放回地抽取样本，形成一个样本集，同时还存在一些未被抽取到的样本即袋外数据OOB；设X为测试样本集，x为其中一个样本；T为训练完成的决策树分类器集合，t为当前决策树；C为分类结果集合，c为其中一个分类；

对当前决策树t而言，其袋外数据OOB记为O_t，并应用决策树t对O_t中的各个样本进行分类；通过对比分类结果和样本真实类别，得到对O_t数据分类正确的样本数量，记为O_tr，记CR_t为决策树t对O_t的分类正确率，则CR_t表达式如公式(16)所示：

式中，CR_t越大，说明决策树t的分类效果越好，属于强分类器；反之，说明决策树t的分类效果越差，属于弱分类器；

将每棵决策树对OOB数据的分类正确率CR_t作为对应决策树的权重，将样本x通过随机森林分类器进行检测分类并经过加权统计，属于c类别的加权总投票数记为Vote_c，则Vote_c表达式如公式(17)所示：

式中，T_c,x(x)取值为1或0，若样本x经过决策树的分类测试后结果为c类，取值为1；若样本x经过决策树的分类测试后结果不为c类，取值为0；

选出得票数最多类别C_x作为样本x的最终类别，表达式如公式(18)所示：

C_x＝argmax(Vote_c) (18)

S43：基于栅格搜索对IRF模型的超参数进行寻优；

在确定了训练输入参数的最优特征集后，在模型训练过程中使用栅格搜索进行超参数调优：模型中参数criterion即决策树做划分时对特征的评价标准采用默认的Gini系数，即将处理好的数据按照25％和75％的比例划分为测试集和训练集；基学习器决策树的数量N_estimators范围设定为[1，100]，决策树最大深度Max_depth范围设定在[1，20]，节点分裂时选取的最大特征数Max_features范围设定在[1，12]；Min_samples_leaf表示最小的叶节点数，范围设定在[1，20]；将上述参数作为栅格搜索参数用于训练模型；对超参数进行基于栅格搜索寻优后将得到各超参数的最优值，为后续决策模型提供最优参数组合，使决策模型的决策性能最大化；

S5：基于最优参数的PCA-XGBoost-IRF决策模型训练

将上述处理得到的模型定义为PCA-XGBoost-IRF决策模型，用于为实际作业车间进行实时调度与决策提供技术支撑，针对扰动环境下作业车间实时调度问题，训练该决策模型以使用基于最优参数的PCA-XGBoost-IRF决策模型挖掘调度知识，训练流程如下：

Step1：数据预处理，对历史数据进行数据预处理，同时构造标准数据集SDS，然后将标准数据集SDS切分为训练数据Train Set和测试数据Test Set；

Step2：特征工程，基于训练数据Train Set进行特征提取和特征选择，并构造最优特征子集；

Step3：测试决策树分类表现，基于测试数据Test Set测试并记录每棵决策树的分类表现；

Step4：避免相似决策树策略，计算决策树之间的相似度，若两颗决策树之间的相似度大于70％，则被认为相似决策树，需要淘汰其中在测试表现中较差的一棵；

Step5：计算各类别加权投票总数，根据对测试数据分类的表现，计算随机森林中保留下的每一棵决策树的权值，即得到式(18)中的Vote_c；

Step6：结果输出，输出当前状态下最优调度规则；

Step7：保存基于最优参数的PCA-XGBoost-IRF决策模型，供实时决策使用；

S6：基于PCA-XGBoost-IRF决策模型进行实时决策

在获得调度知识映射网络后，将其用于动态作业车间的在线实时调度；在动态作业车间在线调度阶段，当检测到缓冲区中有多个待加工工件且机器存在空机时，将当前时刻定义为多工件等待加工的调度决策点，通过信息采集装置、传感器以及管理信息系统实时收集制造系统生产状态信息，基于改进随机森林的调度知识学习模型以当前调度决策点生产系统的状态数据为输入，以最优调度规则为输出，实现动态作业车间在线实时调度；在线调度实时决策流程如下：

Step1：生产订单按指数分布动态到达生产车间，且随着生产任务的进行各扰动因素在生产过程中随机发生；

Step2：根据生产订单信息，对待加工产品按加工工艺依次进行备料生产；

Step3：信息采集装置实时收集各工位缓冲区待加工工件信息、设备状态信息及系统状态信息；

Step4：将采集的车间实时数据存入数据库；

Step5：如果当前时刻为决策点，则将实时状态数据输入基于改进随机森林算法的实时调度决策器进行分类决策，输出当前状态下最优调度规则；

Step6：基于最优调度规则，判断缓存区是否有待加工工件，如果有，则从当前缓存区中选择优先级最高的工件进行加工；如果没有，则设备空闲并等待加工，直到新的工件到达缓存区；

Step7：依次完成加工全过程中所有调度决策点的决策任务，在线调度阶段结束。

2.如权利要求1所述的一种基于PCA-XGBoost-IRF的作业车间实时调度方法，其特征在于：所述步骤S33为对重要度评估数据IED进行基于序列前向搜索SFS的特征选择处理使得评价函数值达到最优，具体内容为：

Step1：基于所有特征进行XGBoost分类；

Step2：基于生成的模型过程中的信息，得到特征变量的重要性FI并按降序排序；

Step3：采用SFS算法依次从当前特征集中选择该轮迭代中重要性得分最高的特征；

Step4：将剩余的特征重新进行新一轮的预测和排序，记录每轮迭代过程中基于RF模型的预测分类准确率Acc，第i次准确率则被记为 Acc_i，将分类准确率作为特征选择评价函数值，用于确定预测分类准确率最高的保留特征子集；