[发明专利]一种物联网数据清洗方法有效
申请号: | 201310081635.4 | 申请日: | 2013-03-14 |
公开(公告)号: | CN103177094B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 唐雪飞;陈科;石砾;韩春梅 | 申请(专利权)人: | 成都康赛信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都宏顺专利代理事务所(普通合伙)51227 | 代理人: | 周永宏 |
地址: | 610054 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联网 数据 清洗 方法 | ||
技术领域
本发明涉及物联网数据处理领域,尤其涉及一种物联网数据清洗方法。
背景技术
随着传感器、射频识别(RFID)、全球定位系统、红外感应器、激光扫描器、气体感应器等各种装置与技术的发展,现实中的一切事物将可能通过实时采集任何需要监控、连接、互动的物体或过程中,采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息,与互联网结合形成的一个巨大网络,这样的一种巨型网络称之为物联网。
由于物联网的以上特性,在采集数据的过程中,产生大量各种格式相异、意义不同的海量数据,而如何从这些数据中根据用户的需要对数据进行清洗,以达到数据有效利用的目的成为物联网信息处理的重点。
传统的数据清洗方式,绝大多数基于磁盘数据文件,在清洗过程中伴随着大量对磁盘的I/O操作,尽管查询优化会在一定程度上改善效率,但是当面对海量数据时,频繁的I/O操作还是直接成为影响性能的瓶颈。本发明针对以上的问题,发明了一种新的数据清洗方法,将物联网数据加载至服务器内存中,然后统一数据格式和数据结构(Uniform-Delicate B-Tree),利用数据结构针对的清洗算法,在多台服务器上,按照预先设定的规则对数据清洗,最大程度的减少I/O操作,从而在根本上解决传统的性能瓶颈问题。
发明内容
本发明针对以上的问题,发明了一种新的数据清洗方法,将物联网数据加载至服务器内存中,然后统一数据格式和数据结构(Uniform-Delicate B-Tree),利用数据结构针对的清洗算法,在多台服务器上,按照预先设定的规则对数据清洗,最大程度的减少I/O操作,从而在根本上解决传统的性能瓶颈问题。
为实现上述目的,本发明采取以下技术方案:一种物联网数据清洗方法,包括以下步骤:第一步:实施人员通过Web Service获取物联网原始数据;第二步:实施人员将原始数据重构后,将其存储在内存中;第三步:实施人员将重构后的原始数据重组为UDB树;第四步:读取预先设定的规则,进行数据清洗。
优选方案:第一步的详细过程包括如下步骤:利用Web Service的方式,对外提供数据服务接口,将数据统一传输至中心数据库,中心数据库采用传统的关系型数据库,为每种类型的设备创建各自的数据表,设备编号作为唯一识别号,所有采集的原始数据将存储在各自的数据表中。
优选方案:第二步的详细过程包括如下步骤:从中心数据库获得所有数据后,实施人员将这些原始数据组装成为数据块;在完成数据重构后,再将这些数据块加载至内存中。
优选方案:第三步的详细过程包括如下步骤:利用UDB查询算法,将第二步中的数据块按照关键字开始索引,在找到相应的位置后,再按照UDB插入算法将数据块插入相应的节点。
优选方案:第四步的详细过程包括如下步骤:在数据清洗时,操作人员可以通过软件配置,或者利用配置文件,对清洗规则进行定义,在整个数据清洗过程中,将在清洗规则约定的条件下进行清洗,且清洗时,可以分为一个及以上个步骤,每个步骤都可以制定不同清洗规则。
优选方案:第二步中所述内存为计算机集群组成的内存。
优选方案:当内存不足以容纳所有的数据时,原始数据将保留在磁盘中,每次只将部分的数据组装为数据块并加载至内存,内存中的数据块完成处理后,再从磁盘中加载剩余的数据。
优选方案:所述的清洗规则可以使用数据库查询语言或者脚本语言进行创建和编辑。
综上所述,由于采用了上述技术方案,本发明的具体有益效果是:充分利用内存的容量存储基础数据,从而减少了I/O开销,提高了访问效率;使用统一的数据格式,有利于数据快速解析,虽然在统一数据格式的过程中会消耗较多时间,但在解析数据时,将会大大提高速度,从而提高整体速度;使用针对物联网的数据结构,利用针对性强的搜索算法,提高检索速度;利用计算机集群的优势,并行进行数据清洗过程,从而在根本上解决传统的性能瓶颈问题。
附图说明
图1为中间节点示意图;
图2为数据节点示意图;
图3为数据块示意图;
图4为UDB树示意图:
图5数据清洗流程图;
图6为数据清洗流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康赛信息技术有限公司,未经成都康赛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310081635.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:阀针式注塑模具薄壁气缸
- 下一篇:一种用于带水塑料薄膜造粒的进料装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置