[发明专利]基于聚类分析和决策树算法的装车工时预测模型在审
申请号: | 201610277844.X | 申请日: | 2016-04-28 |
公开(公告)号: | CN106096748A | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 车静;王永川;姚琳;高山 | 申请(专利权)人: | 武汉宝钢华中贸易有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06K9/62 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 王和平;赵龙骧 |
地址: | 430056 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于聚类分析和决策树算法的装车工时预测模型,引入一种经过聚合分析与决策树混合算法,将影响库存控制的因素抽象出来,并且把相关历史数据作为训练样本,最后使用已训练成型的决策树数据模型对装车工时能够进行有效预测,其基于需求,利用数据挖掘技术对装车的历史数据进行深度挖掘,并生成可用、易用、高准确率的数据模型。采用了聚合分析与决策树算法的结合,优势互补,提高数据模型的准确性,在建立简易准确的数据模型情况下,对原有决策树算法采用优化的策略,减少了计算量。提高了算法的效率。通过该数据模型,可以预测货物装车的较为精准的时间区间,用于更好的人工决策。 | ||
搜索关键词: | 基于 聚类分析 决策树 算法 装车 工时 预测 模型 | ||
【主权项】:
一种基于聚类分析和决策树算法的装车工时预测模型,其特征在于:它包括聚类分析算法模块和决策树算法模块,所述预测模型将历史数据通过聚类分析算法,划分时长区间,进而得出决策树算法的分类方案,再通过历史数据输入包括包装方式、吊装方式等影响最终装车工时的属性集合,与聚类分析的分类方案联系起来,利用C4.5决策树算法生成最终的决策树数据模型,最终来预测出未来的装车工时;所述聚类分析算法模块包括三个步骤:数据差值计算、聚类分析的类合并、聚类分析的类个数确定;第一步,所述数据差值计算是指在聚类中,同等类型的数据会在属性上会较为相近,所以各个数据间的差值是聚类的指标,在装车历史数据中,我们只需考虑装车时间,那么便可以计算两个装车时长数据任意两者之间的距离{dij},即时长的差值,记为D={dij},构造N个类,每个类中只有1个样本,其中:xi表示第i个装车时长数据,xj表示第j个装车时长数据,i,j∈(1,2,…,N);则有公式:dij=xi‑xj 式(1);第二步,所述聚类分析的类合并是指将各个类合并成一个统一的类,类合并便是将两个类合并成一个类的操作,由于一个类之中可能存在多个数据,所以对以上数据用平均距离法进行聚类分析;平均距离法是将类与类之间的距离定义为两类中所有样本对之间的平均距离;假设使用G表示某一类,即装车时长区间,G中有k个元素,i、j表示G中第i、j个因素;令Gp和Gq中分别有p和q个样本,类与类之间平均距离D(p,q)定义为Gp和Gq中所有两个样本之间的平均距离;可以根据式(2)计算得到类之间的平均距离,然后将平均距离最近的两个类进行合并,得到新类,再计算新类与各类直接的平均距离,依次重复,直到所有样本聚类完毕,则有公式:
其中,i、j表示G中第i、j个装车时长数据;第三步,聚类分析的类个数确定,使用伪F统计量准则来自动确定最优的聚类的个数,伪F统计量计算公式如下所示:
其中Pn为分类数为n个类时的总类内离差平方和,T为所有变量的总离差平方和,N为数据样本总数;在聚类过程中,我们在每次类合并的时候计算当前的F值,当完成类合并时,选择F值较大而类数较小的聚类水平作为最终的类的个数;所述决策树算法模块采用C4.5决策树算法建立数据模型,所述C4.5决策树算法使用信息增益率取代ID3使用的信息增益作为选择分支的标准,并能完成对连续属性的离散化处理;通过信息熵值增益值找到最佳的分类的属性,做为树的分支条件,因而可以将对分类结果影响较大的属性处于较前的树层分支,使得分类树尽可能的精确简洁;所述决策树算法模块的输入是历史数据,输出是预测模型,输入方式是输入三个数据集,一个是训练集,一个测试集,一个是候选属性集,所述训练集是指代生成决策树的数据表,该训练集是从历史数据中筛选可能影响装车时长结果的因素属性而生成的数据列表,而该类因素属性则加入候选属性集;所述测试集,其形式同训练集,只不过需要在历史数据中抽出一部分数据作为测试集,会在决策树建立之后,对决策树进行纠正和剪枝优化;所述候选属性集是指影响装车时长结果的因素属性构成的集合;假设T为当前的训练集,当前候选属性集用T_attributelist来表示,所述决策树算法的伪代码具体算法步骤如下:formtree(T,T_attributelist)1)创建节点N2)如果训练集为空,在返回节点N标记为Failure类。函数返回3)如果训练集中的所有记录都属于同一个类,则以该类标记该叶节点N,函数返回4)如果候选属性为空,则N作为叶节点,标记为混合类,函数返回5)for each候选属性T_attribute_list6)if候选属性是连续的then7)对属性进行离散化8)选择候选属性T_attribute_list中具有最高信息增益的属性D,D∈T_attribute_list9)标记节点N为属性D10)for each属性D的一个值d11)由节点N长出一个条件为D=d的分支12)T′={t|数据t的属性D取值为d,t∈T}13)T′_attributelist=T_attributlist‑D14)继续递归执行formtree(T’,T’_attributelist)15)计算每个结点的分类错误率,进行树剪枝,对树进行精简化;如上述伪代码所述,建立决策树的算法输入有两个,训练样本集T与其相关因素属性集T_attributelist;由伪代码可知,决策树是将各个属性进行筛选,最终确定数据的类型;在这里的数据类型即为聚类分析所得到的的分类结果;上述2)~4)步骤是对训练集进行分类的操作;其中如果当前的训练集已经是同一个类,那么,便可以建立一个叶节点设置类别;而如果训练集为空时,说明数据不足或不会出现该种属性集的情况,故将其标记为Failure类,在未来预测是若预测至Failure类时以表警示;如果候选属性为空时,说明该训练集是一个混合节点,即同时会出现多种类的情况,故作为混合叶节点,并给出该叶节点的类混合比例;上述5)~7)步骤是对属性集的一个离散化处理,即将连续的数 值型属性转化为非连续的属性;上述8)~9)步骤是选择一个候选属性,最为当前训练集的分割属性,即分支条件;我们可以看出是通过属性的信息增益值来选择属性;上述10)~14)步骤是决策树的递归深入步骤;当处理完当前树节点的分支情况,则将训练集划分,和将剩余的属性集导入构建树函数,进行子树的构建树处理;上述15)步骤是当所有的递归完成时,即整个决策树已经建立,还需要对树进行优化和简化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉宝钢华中贸易有限公司,未经武汉宝钢华中贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610277844.X/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理