[发明专利]一种基于机器学习的时间序列数据填补与还原方法有效
申请号: | 201910947754.0 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110457867B | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 郑泽宇;温苗苗;尚文祥;李鸽;李娜;何治;胡海滨;何辉辉;石磊 | 申请(专利权)人: | 杭州知衣科技有限公司 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 311200 浙江省杭州市萧山区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 时间 序列 数据 填补 还原 方法 | ||
本发明涉及计算机时间序列数据分析与预测技术领域,具体涉及一种基于机器学习的时间序列数据填补与还原方法。使用基于领域的中位数+均值填充法,填充缺失值;通过线性规则,估算期望采样时刻的真实值;检测时间序列的波峰与波谷,平滑异常值;以采集的数十万条真实数据为样本,设计和生成时序特征,以真实结果为标签,基于极速梯度提升决策树(XGBoost)的机器学习模型进行训练,用于对海量未知数据进行预测。本发明解决了特定时间序列数据的缺失值多、波动性大、误差累积等问题,有效提高了数据填补与还原的准确率;并且较好地控制了机器学习模型的复杂度,能在小时级内完成上亿条数据记录的填补与还原,具有较强的实用价值。
技术领域
本发明涉及计算机时间序列数据分析与预测技术领域,具体涉及一种基于机器学习的时间序列数据填补与还原方法。
背景技术
当前,信息技术被广泛应用于各行各业并不断产生出各类相关数据,数据的采集和挖掘技术也随之兴起,为相关行业的管理决策提供强有力的支持,提高经济和社会效益。
数据采集是一种从数据源收集、识别和选取数据的过程。数据采集可以分为实时采集和间隔采集。实时采集指的是在数据存在期间对其进行采集。间隔采集是指在等间隔的时间点上对数据进行采集。理想的实时采集可以最大程度保留原始数据,从而为进一步的数据挖掘提供有效力保证。然而,实时采集要求采集不间断在线,对采集设备和系统的实时性和稳定性要求高(目前的视频监控系统为典型的实时采集)。对于无法实现实时采集的数据,间隔采集是一种有效的替代方法,通过适当的方法对间隔采集所得数据进行还原,可以最大程度模拟实时采集的效果,同时降低对采集系统的要求。
在数据的间隔采集中,一类常见的数据类型为滑动时间窗口累计值。例如,给定时间周期内的商品销售量(某些电商网站展示的是商品的近N天累计销量,为了推算商品的日销量,理论上需每天凌晨0点整采集一次商品的近N天累计销量)、给定时间周期内的用电量等。从采集的粗粒度时间周期内的数据累计值还原出细粒度时间片的数据当期值,是此类数据采集的重要技术。例如,从七天累计销量还原出日销量;从月用电量还原出日用电量等等。在理想条件下,间隔采集可以准确无误采集到每个指定采集时间点上相关数据,此时由累计值还原当期值是简便易行的(例如,每日定时采集用户的30日累计用电量,则前后两日的差值即为一日的用电量当期值)。但在现实环境中,间隔采集却常常遇到采集不准确甚至采集缺失的困难,例如,无法在计划的时间点采集数据,采集设备故障等等;并且由于某些特定场景下的时间序列数据波动性大,一旦出现采集不准确、采集缺失的问题,将带来非常大的累计误差。
目前,数据分析领域中针对此类问题的解决方案较少,并且存在以下不足:
1、简单的采取均值填补方法、基于数据关联和基于密度的填补方法,会因数据的波动性而造成数据还原的严重失偏,影响所采集的数据可用性;
2、业界基于深度学习的数据还原方法,又容易存在模型过拟合、训练和预测耗时长,难以实用于大规模数据的填补和还原。
发明内容
本发明的目的是为了解决上述问题,提供一种基于机器学习的时间序列数据填补与还原方法。本发明的方法是针对上述数据间隔采集中的问题,在进行深入研究后,提供一种基于机器学习的时间序列数据填补及还原方法,该方法为后期的数据分析与决策支持提供高质量的可靠数据。
为了达到上述发明目的,本发明采用以下技术方案:
一种基于机器学习的时间序列数据填补与还原方法,该方法步骤如下:
S1、采集时间序列数据,包括不同物品、不同采样时刻的滑动窗口累计值;
S2、收集真实的各采样间隔内的累计值;
S3、使用基于领域的中位数+均值法,填充缺失值;
S4、通过线性规则,估算期望采样时刻的真实采样值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州知衣科技有限公司,未经杭州知衣科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910947754.0/2.html,转载请声明来源钻瓜专利网。