[发明专利]一种多阈值空间相关的浮动车数据清洗和修复算法有效
申请号: | 201210273235.9 | 申请日: | 2012-08-02 |
公开(公告)号: | CN102819682A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 杨殿阁;连小珉;张照生;王钊;李江涛;张德鑫;彭应亮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 徐宁;关畅 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 阈值 空间 相关 浮动 数据 清洗 修复 算法 | ||
技术领域
本发明涉及一种浮动车数据处理方法,特别是关于一种多阈值空间相关的浮动车数据清洗和修复算法。
背景技术
浮动车因其具有覆盖范围广、采集数据精度高、实时性强等优点在动态交通数据的采集中得以广泛应用。但浮动车的流动性大,在非车流高峰时段不能覆盖所有路段,并且由于无线通信数据传输会出现数据包丢失的现象,容易导致浮动车采集数据发生错误或缺失,从而影响交通状态测量的准确性。有文献指出目前浮动车采集的交通数据50%左右都存在数据错误或丢失的问题,而直接应用这些质量有问题的数据会给后续的交通辨识和交通控制带来不稳定的安全隐患。因此,为获得精确的动态交通数据,浮动车数据的清洗和修复显得尤为重要。
交通领域中,交通流数据一般包含车速、流量、占有率等信息。对交通流数据的清洗和修复通常是利用不同属性之间的相关性对单一属性缺失数据进行有效补齐。但是浮动车数据只包含车速信息,因此不能采用上述交通流机理检测错误数据。当前对浮动车数据的处理多采用线性插值法或历史平均方法进行修复,修复精度较低。此外,也有方法提出结合线圈、摄像头等传感器数据来提高浮动车数据质量,但是由于目前传感器不能覆盖所有路段,因此这种方法需要增加大基础设施的投入,成本较高。
发明内容
针对上述问题,本发明的目的是提供一种多阈值空间相关的浮动车数据清洗和修复算法,该算法能够在不增加浮动车数量和额外处理设备的情况下,通过挖掘浮动车的规律性车速信息,对浮动车数据中的缺失数据、异常数据和噪声数据进行清洗修复,从而提高浮动车的数据质量,为后续的交通规划奠定基础。
为实现上述目的,本发明采取以下技术方案:一种多阈值空间相关的浮动车数据清洗和修复算法,其包括以下步骤:
1)将浮动车采集的一路段若干天的数据合成一原始数据矩阵,所述原始数据矩阵中日期相同、时刻不同的车速数据构成日期向量,时刻相同、日期不同的车速数据构成时刻向量;
2)以天为单位对步骤1)获得的原始数据矩阵中的缺失数据和异常数据进行筛选:
2.1)为原始数据矩阵的每一时刻向量设置一置信区间;
2.2)对每一日期向量中的车速数据进行辨识及过滤:
如果车速数据小于等于零,则作为缺失数据归零;
如果车速数据未在其所在时刻向量的置信区间内,则作为异常数据;
2.3)检验每一日期向量中缺失数据个数,连续缺失数据个数和连续异常数据个数:
如果一日期向量中缺失数据个数大于预设的数据缺失阈值,或者连续缺失数据个数大于预设的数据连续缺失阈值,或者连续异常数据个数大于预设的数据连续异常阈值,则将整个日期向量删除;
所述连续缺失数据是指该缺失数据的前一时刻或后一时刻数据也缺失;所述连续异常数据是指该异常数据的前一时刻或后一时刻数据也异常;
2.4)经过筛选后的原始数据矩阵成为异常数据矩阵;
3)根据三西格玛准则对步骤2)获得的异常数据矩阵中的异常数据进行清洗:
3.1)对异常数据矩阵中的每一时刻向量进行正态分布检验:
如果时刻向量呈非正态分布,则对其实施近似正态变换;
3.2)根据三西格玛准则求出每一时刻向量的置信区间;
3.3)对每一日期向量中的每一车速数据进行辨识:
如果车速数据偏离其所在时刻向量的置信区间,则作为异常数据归零;
3.4)经过清洗后的异常数据矩阵成为缺失数据矩阵;
4)对步骤3)获得的缺失数据矩阵中的缺失数据进行修复:
4.1)对缺失数据矩阵中的每个缺失数据进行判断:
如果缺失数据是孤立缺失数据,用加权平均法修复,进入步骤4.2);
如果缺失数据是连续缺失数据,用指数平滑法修复,进入步骤4.3);
4.2)用路段的空间相似特性修复车速数据,并将其与加权平均法的车速修复结果作加权平均,获得的结果作为孤立缺失数据的最终修复值;
4.3)用路段的空间相似特性修复车速数据,并将其与指数平滑法的车速修复结果作加权平均,获得的结果作为连续缺失数据的最终修复值;
4.4)经过修复后的缺失数据矩阵成为噪声数据矩阵;
5)用主成分重建方法对步骤4)获得的噪声数据矩阵中的噪声数据进行修复:
5.1)计算噪声数据矩阵的主成分矩阵;
5.2)计算主成分累积贡献率;
5.3)当主成分累积贡献率大于给定的贡献率阈值时,用主成分重建方法获得浮动车修复数据矩阵,结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210273235.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:非接触供电装置以及非接触供电方法
- 下一篇:一种实现会议漂移的控制方法及系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用