[发明专利]一种多阈值空间相关的浮动车数据清洗和修复算法有效

专利信息
申请号: 201210273235.9 申请日: 2012-08-02
公开(公告)号: CN102819682A 公开(公告)日: 2012-12-12
发明(设计)人: 杨殿阁;连小珉;张照生;王钊;李江涛;张德鑫;彭应亮 申请(专利权)人: 清华大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 徐宁;关畅
地址: 100084 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 阈值 空间 相关 浮动 数据 清洗 修复 算法
【说明书】:

技术领域

发明涉及一种浮动车数据处理方法,特别是关于一种多阈值空间相关的浮动车数据清洗和修复算法。

背景技术

浮动车因其具有覆盖范围广、采集数据精度高、实时性强等优点在动态交通数据的采集中得以广泛应用。但浮动车的流动性大,在非车流高峰时段不能覆盖所有路段,并且由于无线通信数据传输会出现数据包丢失的现象,容易导致浮动车采集数据发生错误或缺失,从而影响交通状态测量的准确性。有文献指出目前浮动车采集的交通数据50%左右都存在数据错误或丢失的问题,而直接应用这些质量有问题的数据会给后续的交通辨识和交通控制带来不稳定的安全隐患。因此,为获得精确的动态交通数据,浮动车数据的清洗和修复显得尤为重要。

交通领域中,交通流数据一般包含车速、流量、占有率等信息。对交通流数据的清洗和修复通常是利用不同属性之间的相关性对单一属性缺失数据进行有效补齐。但是浮动车数据只包含车速信息,因此不能采用上述交通流机理检测错误数据。当前对浮动车数据的处理多采用线性插值法或历史平均方法进行修复,修复精度较低。此外,也有方法提出结合线圈、摄像头等传感器数据来提高浮动车数据质量,但是由于目前传感器不能覆盖所有路段,因此这种方法需要增加大基础设施的投入,成本较高。

发明内容

针对上述问题,本发明的目的是提供一种多阈值空间相关的浮动车数据清洗和修复算法,该算法能够在不增加浮动车数量和额外处理设备的情况下,通过挖掘浮动车的规律性车速信息,对浮动车数据中的缺失数据、异常数据和噪声数据进行清洗修复,从而提高浮动车的数据质量,为后续的交通规划奠定基础。

为实现上述目的,本发明采取以下技术方案:一种多阈值空间相关的浮动车数据清洗和修复算法,其包括以下步骤:

1)将浮动车采集的一路段若干天的数据合成一原始数据矩阵,所述原始数据矩阵中日期相同、时刻不同的车速数据构成日期向量,时刻相同、日期不同的车速数据构成时刻向量;

2)以天为单位对步骤1)获得的原始数据矩阵中的缺失数据和异常数据进行筛选:

2.1)为原始数据矩阵的每一时刻向量设置一置信区间;

2.2)对每一日期向量中的车速数据进行辨识及过滤:

如果车速数据小于等于零,则作为缺失数据归零;

如果车速数据未在其所在时刻向量的置信区间内,则作为异常数据;

2.3)检验每一日期向量中缺失数据个数,连续缺失数据个数和连续异常数据个数:

如果一日期向量中缺失数据个数大于预设的数据缺失阈值,或者连续缺失数据个数大于预设的数据连续缺失阈值,或者连续异常数据个数大于预设的数据连续异常阈值,则将整个日期向量删除;

所述连续缺失数据是指该缺失数据的前一时刻或后一时刻数据也缺失;所述连续异常数据是指该异常数据的前一时刻或后一时刻数据也异常;

2.4)经过筛选后的原始数据矩阵成为异常数据矩阵;

3)根据三西格玛准则对步骤2)获得的异常数据矩阵中的异常数据进行清洗:

3.1)对异常数据矩阵中的每一时刻向量进行正态分布检验:

如果时刻向量呈非正态分布,则对其实施近似正态变换;

3.2)根据三西格玛准则求出每一时刻向量的置信区间;

3.3)对每一日期向量中的每一车速数据进行辨识:

如果车速数据偏离其所在时刻向量的置信区间,则作为异常数据归零;

3.4)经过清洗后的异常数据矩阵成为缺失数据矩阵;

4)对步骤3)获得的缺失数据矩阵中的缺失数据进行修复:

4.1)对缺失数据矩阵中的每个缺失数据进行判断:

如果缺失数据是孤立缺失数据,用加权平均法修复,进入步骤4.2);

如果缺失数据是连续缺失数据,用指数平滑法修复,进入步骤4.3);

4.2)用路段的空间相似特性修复车速数据,并将其与加权平均法的车速修复结果作加权平均,获得的结果作为孤立缺失数据的最终修复值;

4.3)用路段的空间相似特性修复车速数据,并将其与指数平滑法的车速修复结果作加权平均,获得的结果作为连续缺失数据的最终修复值;

4.4)经过修复后的缺失数据矩阵成为噪声数据矩阵;

5)用主成分重建方法对步骤4)获得的噪声数据矩阵中的噪声数据进行修复:

5.1)计算噪声数据矩阵的主成分矩阵;

5.2)计算主成分累积贡献率;

5.3)当主成分累积贡献率大于给定的贡献率阈值时,用主成分重建方法获得浮动车修复数据矩阵,结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210273235.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top