[发明专利]一种交通大数据清洗方法、装置、设备及可读存储介质在审
申请号: | 202111518369.8 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114281808A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 邱文利;王志斌;许忠印;权恒友;董立强;陈攀;李永梅;石磊;张博;邱宇;刘栋;韩宇;王宁 | 申请(专利权)人: | 河北雄安京德高速公路有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06N3/08;G06N3/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 071700 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交通 数据 清洗 方法 装置 设备 可读 存储 介质 | ||
本发明公开了一种交通大数据清洗方法、装置、设备及可读存储介质,根据预设的第一数据质量评价规则,对标记后的高速公路全景交通数据进行缺失度和异常度评价,得到不同缺失级别和异常级别的高速公路全景交通数据;根据高速公路全景交通数据的缺失级别和异常级别,并结合预设的不同清洗级别的清洗方法,对高速公路全景交通数据进行清洗;根据预设的第二数据质量评价规则,对清洗后的高速公路全景交通数据进行清洗效果评价,若清洗后的高速公路全景交通数据通过第二数据质量评价规则,则完成数据清洗;否则,改变清洗级别,继续对高速公路全景交通数据进行清洗,直至通过第二数据质量评价规则。本发明清洗数据效率高和成本低,清洗完的数据质量好。
技术领域
本发明属于数据清洗技术领域,尤其涉及一种交通大数据清洗方法、装置、设备及可读存储介质。
背景技术
随着智慧高速公路的不断发展,高速公路部署了众多终端监测设备来采集种类繁多的数据如道路数据、车辆数据、气象数据等。这些海量数据存贮在不同的信息系统中,数据之间关系复杂,规模巨大,数据维度高。由于离散的数据采集异常、通信时数据压缩导致的缺失、设备故障等原因,造成高速公路采集的多源数据中往往会出现数据错误、数据缺失、数据冗余等情况。错误数据:即采集的数据不在期望的阈值范围内,或者不满足已有原理和规则的数据。缺失数据:即在数据采集和传输过程中,由于各种原因(设备原因、操作人员的错误操作等),导致最终未被采集并存储的数据。冗余数据:同一数据在数据库实例中多次出现,即存在数据之间的重复。
对于建立在数据之上的数据挖掘应用,数据的质量和不一致等问题会造成不可估量的后果,例如在进行交通流量预测时得到错误的统计结果,给出了错误的交通拥堵情况预测,干预到驾驶员做出了错误决策,以至于高速公路的通行效率降低且有可能造成交通安全事故。或者由于分析数据信息所得到的误差导致做出了失误的交通控制举措,造成经济损失等。
常见的数据缺失值填补方法包括直接删除或填充。其中删除是最简单直接的方法,该方法通过删除存在遗漏信息的对象并整合剩余对象,从而得到一个完整的信息表。这种通过删除数据的做法,会丢弃大量隐藏在数据对象中的信息,造成了资源的浪费。而填充一般包括均值填充、中位数填充、邻近值填充。这类不考虑数据特征的充填方法,会导致数据集原有分布发生改变,从而改变了数据信息。随着人们对缺失值处理方法的研究的深入,逐渐将数据挖掘的方法如对历史数据进行数据挖掘预测。这类填充方法得到的估计值往往更加接近真实值,但构造和评估模型的过程比较复杂,需要对模型进行评价。高速公路采集的多源交通信息往往具备时空顺序特性,简单的删除和填充无法满足具有时空顺序特征的数据清洗要求。因此高速公路的数据清洗必须要有一套贴合高速公路交通数据特征的、能处理来自不同信息系统的、能有效保证数据质量和完备的数据清洗方法。
发明内容
针对现有技术中存在的问题,本发明提供了一种交通大数据清洗方法、装置、设备及可读存储介质,其目的在于解决当前交通大数据清洗领域,数据种类繁多,多源异构,数据清洗过程中尚未考虑数据时空顺序特征,清洗数据的效率过低和成本较高,清洗完的数据质量难以保障,无法为后续数据挖掘工作提供可靠支撑的难题。
为了解决上述技术问题,本发明通过以下技术方案予以实现:
一种交通大数据清洗方法,包括:
对高速公路全景交通数据进行空值检测和异常识别标记,得到标记后的高速公路全景交通数据;
根据预设的第一数据质量评价规则,对所述标记后的高速公路全景交通数据进行缺失度和异常度评价,得到不同缺失级别和异常级别的高速公路全景交通数据;
根据高速公路全景交通数据的缺失级别和异常级别,并结合预设的不同清洗级别的清洗方法,对高速公路全景交通数据进行清洗;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北雄安京德高速公路有限公司,未经河北雄安京德高速公路有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111518369.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半硬质聚氯乙烯阻燃绝缘胶料及其制备方法、电缆
- 下一篇:电池的充电方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置