[发明专利]一种基于大数据进行人员信息数据治理的方法有效
| 申请号: | 202110895458.8 | 申请日: | 2021-08-05 |
| 公开(公告)号: | CN113535707B | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 阎星娥;杨昆;刘慰慰;严荣明;张林;袁勇斌;薛世峰;石旦 | 申请(专利权)人: | 南京华飞数据技术有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
| 代理公司: | 南京品智知识产权代理事务所(普通合伙) 32310 | 代理人: | 张明昌 |
| 地址: | 210000 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 进行 人员 信息 治理 方法 | ||
本发明提出的是一种基于大数据进行人员信息数据治理的方法,该方法包括以下步骤:1)数据标准:将人员信息数据标准化;2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案;3)数据探查:进行人员信息数据探查,生成人员信息数据探查报告;4)数据预清洗:获取人员信息数据探查报告,对人员信息数据进行预清洗操作;5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理;6)数据接入处理:进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理;7)数据资产:对人员信息数据进行资产管理;本发明能够提供完整、及时的高质量人员信息数据。
技术领域
本发明涉及一种基于大数据进行人员信息数据治理的方法,属于人员信息数据治理领域。
背景技术
如今,人类的生产生活每天都在产生各种各样的庞大的数据,并且产生的速度越来越快;因此,海量异构的人员信息数据的接入、处理和管理的问题越来越引起人们的重视;在企业中,经常会面临人员信息数据离散化、人员信息数据质量参差不齐等问题,其原因如下:
一是人员信息数据量庞大、来源多样、结构混乱,数据缺少统一的标准规范,杂乱的数据会导致资源空间的浪费;
二是人员信息数据不完整、不准确问题越来越明显,人员信息数据质量低下成为了人员信息数据的核心问题。
发明内容
本发明提出的是一种基于大数据进行人员信息数据治理的方法,其目的旨在解决人员信息数据质量低下的问题。
本发明的技术解决方案:一种基于大数据进行人员信息数据治理的方法,该方法包括以下步骤:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案,对人员信息数据进行备忘登记;
3)数据探查:从步骤2)中获取已登记备案的原始数据,对其进行人员信息数据探查,生成人员信息数据探查报告;
4)数据预清洗:从步骤3)中获取人员信息数据探查报告,掌握人员信息数据存在的质量问题,对人员信息数据进行预清洗操作,并将结果存储到hive临时库;
5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理,生成步骤6)所需的配置,形成人员信息数据定义结果供大数据治理平台调用;
6)数据接入处理:根据业务需求,基于步骤3)-步骤5),进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理,并与人员信息数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储;
7)数据资产:对步骤6)中接入的人员信息数据进行资产管理,掌握人员信息数据资产的情况。
进一步地,所述步骤3)中的人员信息数据探查包括两次重复的多维度探查分析,一次是对原始数据的探查,另一次是对步骤4)中数据预清洗后的人员信息数据再次进行探查。
进一步地,所述步骤3)中多维度探查分析包括对人员信息数据量探查、对人员信息数据的字段与质量探查、问题数据探查。
进一步地,所述对人员信息数据量探查是探查出所有的人员信息数据量情况。
进一步地,所述对人员信息数据的字段与质量探查,包括:a)字段空值率探查,b)命名实体探查,c)类型及格式探查。
进一步地,所述字段空值率探查,具体为:通过公式(1)统计出字段空值占比情况:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110895458.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





