[发明专利]数据预处理方法和装置在审
申请号: | 201710253513.7 | 申请日: | 2017-04-18 |
公开(公告)号: | CN108733691A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 王成 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据预处理 预处理 源数据 方法和装置 配置信息 预处理程序 参数匹配 代码重复 接收业务 配置文件 有效解决 同步的 遍历 调用 清洗 变更 查找 统一 | ||
本发明实施例提供一种数据预处理方法和装置,能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不同步的问题。该数据预处理方法包括:接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据预处理方法和装置。
背景技术
Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Spark是一个为速度和通用目标设计的集群计算平台,能更有效地支持多种类型的计算,如交互式查询和流处理。
随着Hadoop+Spark大数据框架的逐步发展,越来越多擅长不同编程语言的数据挖掘工程师会利用大数据框架开发不同的业务模型,例如用户信用评分模型、刷单模型、黄牛识别模型。之后,数据挖掘工程师可针对各个业务模型进行数据预处理、模型训练等。
在现有技术中,往往是针对各个业务模型单独编写对应的数据预处理程序。例如,针对信用评分模型编写了数据预处理程序,针对刷单模型编写了数据预处理程序。虽然这两个模型都用到了用户历史订单相关的指标,比如历史有效订单量,但是需要分别针对该指标进行预处理。另外,虽然这两个模型都用到了相同的离散化处理方法,但是需要各自编写预处理程序。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
第一、数据预处理不统一。对于相同的数据,不同业务模型会有不同的预处理过程。第二,代码重复。对于不同业务模型中相同的预处理步骤,需要重复开发代码,增加开发成本。第三、变更不同步。当业务变化导致数据变更时,需要分别对不同业务模型中的预处理程序进行修改处理。
发明内容
有鉴于此,本发明实施例提供一种数据预处理方法和装置,能够有效解决现有技术中存在的数据预处理不统一、代码重复、变更不同步的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据预处理方法。
本发明实施例的数据预处理方法包括:步骤S1、接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;步骤S2、遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;步骤S3、根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。
可选地,所述源数据参数包括:表名、表中的字段名;所述预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。
可选地,所述表中字段的预处理配置参数包括以下至少一项:数据类型配置、最大值配置、最小值配置、精度配置、正则表达式配置、枚举值列表配置、异常值列表配置、缺失值填充配置、噪音去除配置、归一化配置、离散化配置、缩放配置。
可选地,在步骤S1之前,所述方法还包括:初始化配置文件,并将初始化后的配置文件写入缓存。
可选地,在步骤S3之后,所述方法还包括:将源数据预处理结果返回至所述业务模型。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种数据预处理装置。
本发明实施例的数据预处理装置包括:接收模块,用于接收业务模型发出的调用包中的清洗方法的请求;所述请求包括:源数据参数;匹配模块,用于遍历配置文件,查找与所述源数据参数匹配的预处理配置信息;执行模块,用于根据包中的预处理程序和所述预处理配置信息对源数据进行预处理。
可选地,所述接收模块接收的源数据参数包括:表名、表中的字段名;所述匹配模块查找到的预处理配置信息包括:表名、表中的字段名、表中字段的预处理配置参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710253513.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像数据存储方法、装置及电子设备
- 下一篇:一种社交信息推荐方法和装置