[发明专利]表间冗余关系确定方法、装置、设备及可读存储介质在审
申请号: | 202310167163.8 | 申请日: | 2023-02-24 |
公开(公告)号: | CN116108016A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 彭书庆;甘相阳;邓泽生 | 申请(专利权)人: | 中电云数智科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 罗成 |
地址: | 430056 湖北省武汉市经济技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余 关系 确定 方法 装置 设备 可读 存储 介质 | ||
本发明提供一种表间冗余关系确定方法、装置、设备及可读存储介质。该方法包括:基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;若当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比大于预设比例,则确定两主键Id对应的数据表互为冗余表。通过本发明,实现了冗余表的自动识别,为数据治理提供了有力协助。
技术领域
本发明涉及数据处理领域,尤其涉及一种表间冗余关系确定方法、装置、设备及可读存储介质。
背景技术
在如今的大数据时代,数据的抽取、治理、管理等起到至关重要的作用。在数据治理中,会产生大量的数据表,这些大量的表中难免会出现一些数据来源或者结构来源相似的表,找出这些结构来源或者数据来源相似的冗余表,对数据治理将提供重要帮助。因此,亟需一种识别冗余表的方案。
发明内容
为实现上述目的,本发明提供一种表间冗余关系确定方法、装置、设备及可读存储介质。
第一方面,本发明提供一种表间冗余关系确定方法,所述表间冗余关系确定方法包括:
基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;
遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;
遍历冗余明细表结果集合数据,在循环中确定与当前轮循环中的源表主键Id有相同父表主键Id的参照表主键Id;
计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比;
若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表。
可选的,所述计算当前轮循环中的源表主键Id与参照表主键Id对应的冗余字段占比的步骤包括:
确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段;
计算所述重复字段的数量与当前轮循环中的源表主键Id对应的数据表的总字段数量的比值,得到冗余字段占比。
可选的,所述确定当前轮循环中的源表主键Id以及参照表主键Id的重复字段的步骤包括:
确定当前轮循环中的源表主键Id对应的第一父表血缘字段主键Id集合;
确定参照表主键Id对应的第二父表血缘字段主键Id集合;
以第一父表血缘字段主键Id集合以及第二父表血缘字段主键Id集合的交集对应的父表血缘字段为重复字段。
可选的,在若所述冗余字段占比大于预设比例,则确定当前轮循环中的源表主键Id对应的数据表与参照表主键Id对应的数据表互为冗余表的步骤之后,还包括:
关联存储所述冗余字段占比、当前轮循环中的源表主键Id以及参照表主键Id。
第二方面,本发明还提供一种表间冗余关系确定装置,所述表间冗余关系确定装置包括:
第一构建模块,用于基于具有血缘关系的源表主键Id以及父表主键Id,得到血缘关系集合数据;
第二构建模块,用于遍历血缘关系集合数据,根据源表主键Id以及父表主键Id查询源表血缘字段主键Id以及父表血缘字段主键Id,并根据查询结果得到冗余明细表结果集合数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电云数智科技有限公司,未经中电云数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310167163.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种植物基酸奶及其制备方法
- 下一篇:一种防卡随钻测井仪循环过滤装置