[发明专利]数据处理方法、装置、介质及设备在审

申请号：	201911348079.6	申请日：	2019-12-24
公开（公告）号：	CN113032374A	公开（公告）日：	2021-06-25
发明（设计）人：	詹伟伟;辜国强	申请（专利权）人：	北京数聚鑫云信息技术有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/2458;G06F16/25
代理公司：	北京名华博信知识产权代理有限公司 11453	代理人：	苗源
地址：	100015 北京市朝阳区酒仙***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本文是关于一种数据处理方法、装置、介质及设备。数据处理方法包括：根据待处理数据的数据类型及使用场景，确定n个数据处理步骤，其中n为大于等于2的整数；在模板库中选择流程模板，所述流程模板包括与所述数据处理步骤相对应的模板组件；基于所述数据类型和所述使用场景，调整模板组件的参数，构建数据处理流程；导入所述待处理数据，执行所述数据处理流程，输出结果数据。实现数据处理流程模板化，能有效扩大数据处理流程的适用范围，提高流程复用的可能性，节省成本。

技术领域

本文涉及数据处理，尤其涉及数据处理方法、装置、介质及设备。

背景技术

随着信息技术的高速发展，人们积累的数据量正在急速膨胀。海量的数据中隐藏了巨大的价值，从海量数据中挖掘出潜在的价值将是一项巨大的挑战。

相关技术中，为了从数据中发现潜在的信息，往往是从一堆不规则的数据开始的，先对数据进行简单的探索，再对数据进行清洗，使杂乱的数据初步规范，然后再经过集成、规约、变换等操作对数据进行预处理。随后对数据建模，选择出适用于特定场景的最佳模型并根据实际情况调整模型参数，再使用模型得到结果。从数据到结果这一过程尤为繁琐，往往会耗费大量的时间和人力。

处理过程一般包括如下步骤：①探索数据，寻找分析入口；②进行数据预处理，比如：数据的清洗、集成、规约、变换等；③进行特征工程，选取特征；④对问题建模，构建模型，调整参数；⑤使用模型进行计算，得到结果。在这个过程中，和结果直接相关的就是选取的模型。一般情况下，模型往往和某些特定数据强相关，若数据变化，整个过程几乎就需要重来，缺乏灵活性。不仅如此，模型还往往和预测的方向相关联，即使数据一样，只要预测的方向发生了变化，也可能导致重新选择模型并调整参数。整个过程十分复杂，很难实现自动化，效率也很难提高。

发明内容

为克服相关技术中存在的问题，本文提供一种数据处理的方法、装置、介质及设备。

根据本文的第一方面，提供一种数据处理方法，包括：

根据待处理数据的数据类型及使用场景，确定n个数据处理步骤，其中 n为大于等于2的整数；

在模板库中选择流程模板，所述流程模板包括与所述数据处理步骤相对应的模板组件；

基于所述数据类型和所述使用场景，调整模板组件的参数，构建数据处理流程；

导入所述待处理数据，执行所述数据处理流程，输出结果数据。

所述模板组件的参数包括：机器模型键-值，数据源键-值，流程参数键- 值。

所述基于所述数据类型和所述使用场景，调整模板组件的参数，构建数据处理流程包括：

基于所述数据类型，调整所述数据源键-值为待处理数据的类型-名称，以使所述数据处理流程导入所述待处理数据；

基于所述使用场景，调整所述流程参数键-值为设定的键-值，以使所述数据处理流程按所述设定的键-值处理所述待处理数据；

或者，调整所述机器模型键-值为需调用的机器模型的类型-名称，以使所述数据处理流程调用所述需调用的机器模型。