[发明专利]一种基于大数据进行人员信息数据治理的方法有效
| 申请号: | 202110895458.8 | 申请日: | 2021-08-05 |
| 公开(公告)号: | CN113535707B | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 阎星娥;杨昆;刘慰慰;严荣明;张林;袁勇斌;薛世峰;石旦 | 申请(专利权)人: | 南京华飞数据技术有限公司 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
| 代理公司: | 南京品智知识产权代理事务所(普通合伙) 32310 | 代理人: | 张明昌 |
| 地址: | 210000 江苏省南京市建邺*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 进行 人员 信息 治理 方法 | ||
1.一种基于大数据进行人员信息数据治理的方法,其特征是该方法包括以下步骤:
1)数据标准:将人员信息数据标准化,对人员信息数据进行统一规范的管理,消除各部门间的人员信息数据壁垒;
2)数据备案:将人员信息数据的基本信息及原始数据上传进行登记备案,对人员信息数据进行备忘登记;
3)数据探查:从步骤2)中获取已登记备案的原始数据,对其进行人员信息数据探查,生成人员信息数据探查报告;
4)数据预清洗:从步骤3)中获取人员信息数据探查报告,掌握人员信息数据存在的质量问题,对人员信息数据进行预清洗操作,并将结果存储到hive临时库;
5)数据定义:以登记备案的人员信息数据为维度,来定义人员信息数据读取、处理及治理,生成步骤6)所需的配置,形成人员信息数据定义结果供大数据治理平台调用;
6)数据接入处理:根据业务需求,基于步骤3)-步骤5),进行数据读取将多源异构的人员信息数据接入大数据处理中心,在接入过程中进行人员信息数据处理,并与人员信息数据提供方进行数据核对,最后将处理完的人员信息数据写文件存储;
7)数据资产:对步骤6)中接入的人员信息数据进行资产管理,掌握人员信息数据资产的情况;
所述步骤3)中的人员信息数据探查包括两次重复的多维度探查分析,一次是对原始数据的探查,另一次是对步骤4)中数据预清洗后的人员信息数据再次进行探查;所述多维度探查分析包括对人员信息数据量探查、对人员信息数据的字段与质量探查、问题数据探查;
所述步骤4)中数据预清洗包括条件过滤,字段拼接、拆分与替换字符串操作;所述条件过滤是提供为空、非空、范围规则这三种选择,让前台以查询条件的形式作为参数传给后台;所述字段拼接、拆分与替换字符串是通过CONCAT函数和REPLACE函数来拼接拆分已有字段及替换字符串;
所述步骤5)中数据定义是基于数据标准来定义,定义包括数据读取定义、数据格式定义、数据处理定义、数据治理定义;所述数据读取定义是根据人员信息数据探查结果,定义原始数据从源平台中的读取,按照业务需求来定义人员信息数据的文件字符集;所述数据格式定义是参考数据标准,完成人员信息原始字段与人员信息标准字段的映射;所述数据处理定义包括step1数据清洗策略定义,step2数据提取策略定义;所述数据治理定义包括资源目录注册,资源目录注册是将数据备案中已登记的人员信息数据,同步注册到数据资源目录,全面掌握人员信息数据的情况;
所述步骤6)中数据读取是从人员信息数据预清洗的hive临时库中抽取数据,检查数据定义是否一致,如果一致则进行数据读取,如果不一致则停止读取;数据核对是在数据读取阶段同步进行的环节,在某一时间对账时间节点内,检查人员信息数据的完整性和正确性;
所述步骤6)中人员信息数据处理包括step1清洗和step2提取,具体如下:
step1清洗:根据数据清洗策略定义,对实时接入的人员信息数据进行条件过滤,字段拼接、拆分与替换字符串操作;
step2提取:根据数据提取策略定义,从源格式数据中提取出目的格式数据,针对实时接入的人员信息数据的部分字段、人员信息数据的关系进行提取;
所述步骤4)中数据预清洗、步骤5)中step1数据清洗策略定义、步骤6)中step1清洗的区别在于所针对的数据对象不同,步骤4)是针对样例数据,而步骤5)、步骤6)是针对真实的数据;步骤5)和步骤6)的区别又在于:两者的用途不一样,步骤5)是清洗的规则定义,而步骤6)是按步骤5)对真实数据进行处理。
2.根据权利要求1所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述对人员信息数据量探查是探查出所有的人员信息数据量情况;所述对人员信息数据的字段与质量探查包括:a)字段空值率探查,b)命名实体探查,c)类型及格式探查。
3. 根据权利要求2所述的一种基于大数据进行人员信息数据治理的方法,其特征是所述字段空值率探查,具体为:通过公式(1)统计出字段空值占比情况:
(1)
式中:Rate表示空值率,f(k)表示字段空值数,k表示下界,n表示上界,m表示总行数,z表示特殊字符行数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华飞数据技术有限公司,未经南京华飞数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110895458.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





