[发明专利]一种对标处理的方法、装置、计算机存储介质及终端有效
申请号: | 201811598897.7 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109800215B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 张毅然;王健伟 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/242 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王康;栗若木 |
地址: | 102218 北京市昌平区东小*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 方法 装置 计算机 存储 介质 终端 | ||
一种对标处理的方法、装置、计算机存储介质及终端,包括:构建待对标处理的各目标表的第一特征向量;对构建的第一特征向量进行聚类运算;根据聚类运算结果,对属于同一聚类簇的目标表进行融合,获得对应于各聚类簇的宽表;根据原始表与获得的各宽表的相似度信息,从获得的所有宽表中选择其中一个作为用于对标处理的标准表。本发明实施例提升了原始表的对标效率。
技术领域
本文涉及但不限于数据处理技术,尤指一种对标处理的方法、装置、计算机存储介质及终端。
背景技术
标准化是数据治理流程中提升治理效率的重要手段,是实现公安、金融、工业等领域半自动化数据治理的关键步骤。在数据治理中,原始表表示公安、金融等各领域最初收集的数据源中的数据,如公安行业统计的“卡口车辆信息表”等,目标表是指分析原始表数据并从中提取的有价值的信息,比如实体人信息、车辆信息等。原始表数据一般是杂乱、冗余的,因此原始表数据量大,在数据治理过程中提取标准表较难。一般的数据治理主要通过人工方法从原始表提取有价值的字段组成目标表,处理过程繁琐;比如要研究“嫌疑人”,就需要手工从原始表抽取“嫌疑人”的相关信息,要研究“嫌疑车辆”又需要手工从原始表抽取“嫌疑车辆”的相关信息,即每次都要重新从原始表抽取不同的信息,工作效率非常低。
标准化就是简化上述过程的一种方法,它旨在将行业内积累的目标表构建一个通用的标准库,标准库保存了领域内很多通用的标准表。当一个新项目到来时,由于同一领域内的业务逻辑相近,可以大概率的在标准库匹配到需要构建的目标表,可以直接使用匹配到的标准表中已构建好的字段来映射原始表中的相关字段,从而缩短人工构建目标表及目标表字段的耗时。
上述标准化过程主要通过将多个项目中配置的标准表进行聚合,构成一个容量庞大的标准库,虽然能覆盖领域内绝大多数业务逻辑,但是会出现标准表重复出现的冗余问题,导致标准库无节制地扩大,影响对标效率。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种对标处理的方法、装置、计算机存储介质及终端,能够提升对标效率。
本发明实施例提供了一种对标处理的方法,
构建待对标处理的各目标表的第一特征向量;
对构建的第一特征向量进行聚类运算;
根据聚类运算结果,对属于同一聚类簇的目标表进行融合,获得对应于各聚类簇的宽表;
根据原始表与获得的各宽表的相似度信息,从获得的所有宽表中选择其中一个作为用于对标处理的标准表;
根据选择的标准表进行原始表的对标处理;
其中,所述对标处理包括:使用选择的标准表中已构建的字段映射原始表中的相关字段。
可选的,所述构建待对标的各目标表的第一特征向量包括:
对所有目标表包含的字段均进行分词处理,获得包含所有分词的词典;
根据获得的词典对各目标表进行词频统计,获得对应于各目标表的词频向量;
对获得的各词频向量分别进行预处理后,构建对应于各目标表的所述第一特征向量;
其中,所述预处理包括:归一化处理。
可选的,所述对构建的第一特征向量进行聚类运算之前,所述方法还包括:
根据预设策略确定所述聚类运算的聚类中心数;
其中,所述聚类中心数与所述目标表包含的种类数成正比。
可选的,所述对属于同一聚类簇的目标表进行融合包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811598897.7/2.html,转载请声明来源钻瓜专利网。