[发明专利]一种基于大数据的中央空调能耗特征选择方法在审
申请号: | 201810730455.7 | 申请日: | 2018-07-05 |
公开(公告)号: | CN108921222A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 李碧军;史翔;何彬;陈耕 | 申请(专利权)人: | 四川泰立智汇科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 梁田 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中央空调 能耗特征 大数据 算法 预处理 特征选择算法 能耗数据 交集 本质差异 关键特征 冗余问题 特征融合 特征选择 特征子集 影响研究 运行数据 专家意见 复杂度 特征集 回归 归类 子集 能耗 采集 创建 | ||
本发明公开了一种基于大数据的中央空调能耗特征选择方法。预先采集中央空调能耗运行数据,并对该数据进行预处理。根据预处理后的能耗数据特征集,分别使用boruta特征选择算法和lasso回归算法创建各自的能耗特征子集,提取出影响研究目标的重要特征。对于两种不同性质的方法选得到特征子集,结合专家意见,采用交集归类的方法进行特征融合,得到最终的关键特征。本发明采用特征选择的两个主要方法:lasso回归算法和boruta特征选择算法。算法本质差异明显,避免了单一方法带来的局限性,有效的解决了大数据冗余问题,降低了中央空调能耗数据模型的复杂度。
技术领域
本发明涉及中央空调节能研究的技术领域,涉及大数据背景下的数据挖掘方法,具体涉及一种基于大数据的中央空调能耗特征选择方法。
背景技术
进入21世纪以来,建筑自动化系统(buildingautomationsystem,BAS)为实施建筑系统性能诊断和优化提供了必需的信息技术平台。BAS中存储着庞大的建筑实际运行数据,但这些数据很少得到充分的利用。在中央空调系统运行能耗计量中,积累了大量高维的实时能耗数据,常规方法难以发现和总结这些数据蕴含的知识。数据挖掘作为一项新兴的多学科技术,使高非线性系统建模有了新的曙光,特别是数据挖掘技术在中央空调领域的应用研究也越来越多。
在中央空调能耗研究中,其中重要一项是中央空调系统能耗特变量。目前,针对各个中央空调系统的不同,中央空调系统能耗因素也不同,缺乏一套普适的中央空调能耗特征选择方法。
发明内容
中央空调系统能耗特征变量研究中,能耗模型涉及多参数问题,包括外部参数和内部参数。建立一套可靠而普适的基于数据挖掘技术的中央空调能耗特征选框架,对运行节能策略意义重大。本发明提供一种基于大数据的中央空调能耗特征提取方法,减少大数据的冗余性,在常规能耗内部特征上加入外部特征,实现更精确的能耗特征模型。
本发明通过下述技术方案实现:
一种基于大数据的中央空调能耗特征选择方法,包括以下步骤:
步骤一、采用专家意见对特征数据集进行初步筛选;
步骤二、对经过初步筛选的特征数据集进行预处理;
步骤三、基于预处理后的特征集,采用boruta特征选择算法提取新的特征子集1;
步骤四、基于预处理后的特征集,采用lasso特征选择算法提取新的特征子集2;
步骤五、基于步骤三得到的特征子集1和步骤四得到的特征子集2,结合专家意见,采用交集归类的方法得到中央空调能耗关键特征集合。
优选的,所述步骤二的预处理具体包括以下步骤:
步骤2.1,设定约束范围,剔除异常值;
步骤2.2,使用决策树得到系统稳定条件下的运行数据;
步骤2.3,间隔5分钟取数据均值,去掉重复点;
步骤2.4,合并数据,并进行数据扩增;
步骤2.5,插值补充缺失数据。
优选的,所述步骤三中采用boruta特征选择算法提取新的特征子集1具体包括以下步骤:
步骤3.1,通过创建混合副本的阴影特征为给定的数据集增加随机性;
步骤3.2,训练一个随机森林分类的扩展数据集,以评估每个特征的重要性,越高则越重要;
步骤3.3,检查每一个原特征是否比最好的阴影特征具有更高的重要性,并且不断删除它视为非常不重要的特征;
步骤3.4,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川泰立智汇科技有限公司,未经四川泰立智汇科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810730455.7/2.html,转载请声明来源钻瓜专利网。