[发明专利]一种数据管理方法与管理平台在审
申请号: | 201710322643.1 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107169073A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 宋亚松;杨凯;王洪;刘博;张峰铭;贺鹏飞;王玉鑫;张静 | 申请(专利权)人: | 北京智行创远信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京盈天科地知识产权代理有限公司11645 | 代理人: | 杨金凤 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据管理 方法 管理 平台 | ||
技术领域
本发明涉及数据处理的技术领域,特别涉及一种数据清洗、数据治理的数据管理方法、管理平台。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。例如在业务系统中,往往会因为语言多样化、数据格式多样化、或数据组织形式的不同等因素而产生多样、多形式的不标准数据,例如订单的付款时间可能采取DD:MM:YY,或者采取YYYY.MM.DD的形式,这些就是格式不统一的数据。在对数据做统计分析之前,需要将这些数据进行治理或者将不标准的数据进行清洗,以确保统计的准确性。数据清洗是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。
目前整个大数据环境对数据质量的处理还没有很成熟有效的工具的和平台彻底解决该类问题,并且针对海量、不同语种、不同结构数据的研究和处理更是缺乏相关的经验和技术研究。
目前的数据清洗、数据治理以数据库其本身的技术方法为主,以软件工作为辅助来完成数据的清洗,而且清洗工具处理的数据覆盖面较窄,主要针对各自业务的具体需求,解决一些具有专业性的业务需求。现有的清洗技术目标单一,不能有效解决多结构、多类型数据,技术应用对硬件系统要求高、系统成本高,处理方式受到数据库本身及机器的限制,而且不能对多类型数据做出规范化,处理方式单一不能高效、便捷的处理。
在这种背景下,借助于信息系统国产化的发展趋势,需要提出一种能够在管理数据的过程中实现高效、通用的数据治理方法,实现数据治理过程人力成本降低,时间投入少,降低项目风险。
发明内容
为解决如上的技术问题,本发明提出了一种分布式多线程数据清洗方法与清洗系统,本方法与系统主要针对世界上多元、异构、多语种的数据进行规范化治理,通过采用B/S架构设计,通过网页完成数据资源管理、治理工作的配置,后端通过二次开发建设分布式数据清洗治理程序,前端配置与后端程序架构结合,自动化完成数据的规范化清洗和治理工作。网页架构多用户的模式便于人机交互,后端的多线程、分布式技术高效快捷完成清洗工作,对清洗技术的开发更具备包容性,对世界多个地区,多类语言完成数据的清洗工作。同时提供数据任务可视化监控,便于对数据生命周期的管理和运用。
本发明所公开的清洗平台系统实施在浏览器/服务器架构中,通过建立分布式环境的形式来构建协同清理系统,能够实现多端多线程共同数据治理,并且增强清洗方法的适应性。
更具体而言,本发明提出了一种基于B/S架构的分布式数据治理平台,其包括至少一个承载有浏览器的客户终端与至少一个服务器端,其中服务器端包括有用户管理模块、数据存储模块、数据标准与标签标准体系模块、规则存储模块、规则配置模块以及数据处理模块;
其中,用户管理模块用于对用户进行身份验证,分配用户角色,用户角色包括数据清洗用户、规则配置用户、普通查看用户;
其中,数据存储模块用于存储原始的数据文件,其采用关系型数据库来存储数据;
其中,数据标准与标签标准体系模块用于保存标准的数据定义、数据格式等信息,通过标签体系来构建标准数据形式,且建立不同数据格式之间的转换关系;
其中,规则存储模块用于存储经过用户设置的数据清洗规则;
其中,规则配置模块用于设置数据清洗规则;
其中,数据处理模块包括结构化数据清洗单元、非结构数据清洗单元,分别用于实现结构化数据的清洗以及非结构化数据的清洗;数据处理模块对外提供统一的平台接口,对于多样化、异构数据以及多种处理规则,采用一站式平台实现数据清洗;
较佳地,该平台的数据处理模块可以通过分布式以及多线程的形式进行数据处理,将数据处理工作任务按照分布式系统的节点进行任务划分,且每个服务器端可以通过开启多线程的形式来处理多个数据清洗任务;
较佳地,分布式处理过程中,通过自组织的形式建立分布式网络的集群,集群内部通过主节点将数据清洗任务进行划分与分配,并将数据清洗任务分配到各从节点上,从节点视其所需运行的数据清洗任务选择开启多线程进行执行;
较佳地,该平台的数据标准与数据标签体系模块基于文本的形式来保存国际通用型数据标准,并将该标准通过该文本的形式嵌入在本平台中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智行创远信息科技有限公司,未经北京智行创远信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710322643.1/2.html,转载请声明来源钻瓜专利网。