[发明专利]一种基于最短路径最大流的IdMapping方法在审
申请号: | 202111051480.0 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113849590A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 雷鸣;武志彦;王康;汤鲲 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 路径 最大 idmapping 方法 | ||
本发明公开了一种基于最短路径最大流的IdMapping方法,包括以下步骤:S1:关系提取;S2:构造图结构;S3:连通分量分成;S4:最短路径最大流计算;S5:ID生成。该种基于最短路径最大流的IdMapping方法,利用无向图结构的边对现实数据中单条数据产生的属性关联进行抽象投影,将多条数据联合产生的关联抽象成图论中的节点可达性问题,通过图论的最大流范式定义现实数据的证据流强度,使整个Id Mapping方法具备很好的可理解性。
技术领域
本发明涉及生成Id Mapping技术领域,具体为一种基于最短路径最大流的IdMapping方法。
背景技术
信息技术发展日新月异,社会中每个组织的自有数据量也呈现出爆炸增长的趋势。然而,在劳动分工日渐成熟的今天,每个职能、每条业务对应的数据都或多或少存在的独立地设计、运营,导致职能部门间、社会组织间出现了“数据孤岛”,极大地限制了数据价值的充分挖掘。
Id Mapping方法即是为了尽可能解决“数据孤岛”问题而产生的方案统称。现有的Id Mapping方法通常按照:关系采集清洗、关系权重计算判定、生成Id、Id更新四个步骤进行,关系权重计算的方法直接决定了Id生成的效率与质量,Id更新步骤为该方法在增量数据处理上一些微调适应策略的体现,因此我们对此做出改进,提出一种基于最短路径最大流的IdMapping方法。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于最短路径最大流的IdMapping方法,包括以下步骤:
S1:关系提取;
S2:构造图结构;
S3:连通分量分成;
S4:最短路径最大流计算;
S5:ID生成。
作为本发明的一种优选技术方案,所述S1中,关系提取包括如下步骤:
原始数据表中投影出Id相关字段集合A={A0,A1,…,A|A|};
对每条数据,依次抽取出A中两两字段的组合值作为原始关系,共计个关系组合值,记为R”;
过滤掉R”中的非法关系,生成该条数据关系集合R';合并所有数据的关系,形成最终关系集合R完成关系提取步骤。
作为本发明的一种优选技术方案,所述S2中,构造图结构包括如下步骤:
S2.1:图初始化:
记图对象为G(V,E),V={},E={},V为顶点集合,E为边集合,每条边e包含属性:起始节点from、到达节点to、边权重(本案中以频数作为权重)weight等;
S2.2:顶点提取:
R中所有关系中的元素去重后即为顶点集合V;
S2.3:边提取:
遍历R中所有的关系,对于R0=(Vi,Vj),若E中不存在起始点为Vi,目标点为Vj的边,则E中添加一条边:E'0,且E'0.from=Vi,;
E'0.to=Vj,E'0.flow=1,…;若存在对应的边E0,则对应地进行边的信息更新:E0.flow+=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111051480.0/2.html,转载请声明来源钻瓜专利网。