[发明专利]数据处理方法、装置及存储介质在审
申请号: | 202110996879.X | 申请日: | 2021-08-27 |
公开(公告)号: | CN113741904A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 周波;杨旋;张君;王哲;蔡浴泓 | 申请(专利权)人: | 浙江惠瀜网络科技有限公司 |
主分类号: | G06F8/51 | 分类号: | G06F8/51 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽;李志刚 |
地址: | 311200 浙江省杭州市萧山区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 | ||
本发明提供一种数据处理方法、装置及存储介质,包括:从数据源中获取原始数据;定义所述原始数据和目标数据的映射关系;基于所述映射关系生成转换规则;根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。本发明提供的技术方案,只需要定义所述原始数据和目标数据的映射关系,就可以进行数据映射或者数据清洗,不需要学习相关编程技术,学习成本低;根据预先生成的转换规则通过Jolt工具可以直接端对端进行数据映射或者数据清洗,不会因为数据源或者需求变更带来影响,无需修改代码。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及存储介质、电子设备。
背景技术
在传统数据清洗、数据映射当中通常采用Hive SQL、Spark SQL、Spark Core的方式通过编码对数据进行清洗、映射。
使用Spark、Hive进行数据清洗学习门槛较高且依赖的jar包较多、较为笨重。采用hard code的方式进行数据清洗、数据映射,若有新格式的数据源或者数据源有变动时就需要修改代码,可扩展性较差。
因此,亟需一种可以同时解决数据清洗、映射学习门槛高和拓展性差的问题的数据处理方法、装置及存储介质。
发明内容
本发明实施例提供一种数据处理方法、装置及存储介质,用以解决现有技术中数据清洗学习门槛较高且较为笨重,以及可扩展性较差的问题。
本发明实施例的第一方面,提供一种数据处理方法,包括:
从数据源中获取原始数据;
定义所述原始数据和目标数据的映射关系;
基于所述映射关系生成转换规则;
根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
可选地,在第一方面的一种可能实现方式中,所述从数据源中获取原始数据,包括:
将一个原始数据或者多个原始数据的组合作为基础数据,所述基础数据用于定义所述原始数据和目标数据的映射关系。
可选地,在第一方面的一种可能实现方式中,所述定义所述原始数据和目标数据的映射关系,包括:
采用手动制定映射方式或者页面拖拽方式将每条原始数据与目标数据中的每个字段进行关联,以产生映射关系。
可选地,在第一方面的一种可能实现方式中,所述数据源包括:关系型数据库、非关系型数据库。
可选地,在第一方面的一种可能实现方式中,所述从数据源中获取原始数据,包括:在多个原始数据进行组合的过程中,预先对不同类型的原始数据分别设置相应的权重值,并根据权重值的大小关系将原始数据进行优先级的排序。
可选地,在第一方面,提供了另一种数据处理方法,包括:
从数据源中获取原始数据;
定义协议标准,并将所述协议保存至数据库中;
从数据库中查询协议并通过代码方式生成转换规则;
根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
本发明实施例的第二方面,提供一种数据处理装置,包括:
获取模块,用于从数据源中获取原始数据;
定义模块,用于定义所述原始数据和目标数据的映射关系;
生成模块,用于基于所述映射关系生成转换规则;
转换模块,用于根据预设转换工具和所述转换规则将所述原始数据转换为目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江惠瀜网络科技有限公司,未经浙江惠瀜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110996879.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自复位的多层圆环弹簧摩擦阻尼器
- 下一篇:一种船舶控制系统