[发明专利]一种多阈值空间相关的浮动车数据清洗和修复算法有效
申请号: | 201210273235.9 | 申请日: | 2012-08-02 |
公开(公告)号: | CN102819682A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 杨殿阁;连小珉;张照生;王钊;李江涛;张德鑫;彭应亮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 徐宁;关畅 |
地址: | 100084 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种多阈值空间相关的浮动车数据清洗和修复算法,该算法将浮动车对一路段的若干天的采集数据合成一数据矩阵,在以天为单位初步筛选数据矩阵中的缺失数据和异常数据后,根据三西格玛过滤法则进一步清除数据矩阵中的异常数据,然后根据缺失数据的类型,用加权平均法和指数平滑法分别结合路段的空间相似特性对缺失数据进行修复,最后用主成分重建方法修复浮动车数据中的高频噪声扰动,从而在不增加浮动车数量和额外处理设备的情况下,对浮动车的规律性车速信息进行充分挖掘,有效地改善了浮动车的数据质量。本发明可以用于浮动车规律性数据的清洗和修复工作,为后续的交通规划和交通辨识提供可靠的数据。 | ||
搜索关键词: | 一种 阈值 空间 相关 浮动 数据 清洗 修复 算法 | ||
【主权项】:
一种多阈值空间相关的浮动车数据清洗和修复算法,其包括以下步骤:1)将浮动车采集的一路段若干天的数据合成一原始数据矩阵,所述原始数据矩阵中日期相同、时刻不同的车速数据构成日期向量,时刻相同、日期不同的车速数据构成时刻向量;2)以天为单位对步骤1)获得的原始数据矩阵中的缺失数据和异常数据进行筛选:2.1)为原始数据矩阵的每一时刻向量设置一置信区间;2.2)对每一日期向量中的车速数据进行辨识及过滤:如果车速数据小于等于零,则作为缺失数据归零;如果车速数据未在其所在时刻向量的置信区间内,则作为异常数据;2.3)检验每一日期向量中缺失数据个数,连续缺失数据个数和连续异常数据个数:如果一日期向量中缺失数据个数大于预设的数据缺失阈值,或者连续缺失数据个数大于预设的数据连续缺失阈值,或者连续异常数据个数大于预设的数据连续异常阈值,则将整个日期向量删除;所述连续缺失数据是指该缺失数据的前一时刻或后一时刻数据也缺失;所述连续异常数据是指该异常数据的前一时刻或后一时刻数据也异常;2.4)经过筛选后的原始数据矩阵成为异常数据矩阵;3)根据三西格玛准则对步骤2)获得的异常数据矩阵中的异常数据进行清洗:3.1)对异常数据矩阵中的每一时刻向量进行正态分布检验:如果时刻向量呈非正态分布,则对其实施近似正态变换;3.2)根据三西格玛准则求出每一时刻向量的置信区间;3.3)对每一日期向量中的每一车速数据进行辨识:如果车速数据偏离其所在时刻向量的置信区间,则作为异常数据归零;3.4)经过清洗后的异常数据矩阵成为缺失数据矩阵;4)对步骤3)获得的缺失数据矩阵中的缺失数据进行修复:4.1)对缺失数据矩阵中的每个缺失数据进行判断:如果缺失数据是孤立缺失数据,用加权平均法修复,进入步骤4.2);如果缺失数据是连续缺失数据,用指数平滑法修复,进入步骤4.3);4.2)用路段的空间相似特性修复车速数据,并将其与加权平均法的车速修复结果作加权平均,获得的结果作为孤立缺失数据的最终修复值;4.3)用路段的空间相似特性修复车速数据,并将其与指数平滑法的车速修复结果作加权平均,获得的结果作为连续缺失数据的最终修复值;4.4)经过修复后的缺失数据矩阵成为噪声数据矩阵;5)用主成分重建方法对步骤4)获得的噪声数据矩阵中的噪声数据进行修复:5.1)计算噪声数据矩阵的主成分矩阵;5.2)计算主成分累积贡献率;5.3)当主成分累积贡献率大于给定的贡献率阈值时,用主成分重建方法获得浮动车修复数据矩阵,结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210273235.9/,转载请声明来源钻瓜专利网。
- 上一篇:非接触供电装置以及非接触供电方法
- 下一篇:一种实现会议漂移的控制方法及系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用