[发明专利]数据集获得方法、装置及电子设备在审
申请号: | 202210035840.6 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114064576A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李明 | 申请(专利权)人: | 北京九章云极科技有限公司 |
主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/172;G06F16/955;G06N20/00 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 刘倩兰 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 获得 方法 装置 电子设备 | ||
本申请提供一种数据集获得方法、装置及电子设备,其中,方法包括获取第一信息,第一信息包括用于指示原始数据集来源的数据源信息,基于数据源信息获取原始数据集,对原始数据集进行分析,获得第一分析结果,基于第一信息和第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。本申请提供的数据集获得方法可以有效减少接口服务,使得各个微服务获取信息更高效,从而提高了微服务获取信息的效率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据集获得方法、装置及电子设备。
背景技术
在机器学习的训练过程中,通常需要多个微服务共同协助完成训练过程。在训练过程中每个微服务均需使用数据集中的信息。目前,某个微服务获取数据集中的某个信息,需要通过至少一个业务接口将该信息层层传递至该微服务,如下游微服务获取数据集中的某个信息,需要从上游将该信息一层层传递至下游微服务。因此,各个微服务获取信息的过程较为繁琐,导致微服务获取信息的效率较低。
发明内容
本申请实施例提供一种数据集获得方法、装置及电子设备,解决了微服务获取信息的效率较低的问题。
为达到上述目的,第一方面,本申请实施例提供一种数据集获得方法,包括:
获取第一信息,所述第一信息包括用于指示原始数据集来源的数据源信息;
基于所述数据源信息获取原始数据集;
对所述原始数据集进行分析,获得第一分析结果;
基于所述第一信息和所述第一分析结果,获得目标数据集,所述目标数据集包括用于描述所述原始数据集的信息。
可选地,所述第一信息包括目标存储路径,所述基于所述第一信息和所述第一分析结果,获得目标数据集,包括:
在所述目标存储路径下新建第一存储空间和第二存储空间;
将所述第一分析结果存储于所述第一存储空间,且将所述第一信息存储于所述第二存储空间,获得所述目标数据集。
可选地,所述对所述原始数据集进行分析,获得第一分析结果包括:
读取所述原始数据集,对所述原始数据集进行分析,获得第一分析结果;
所述将所述第一分析结果存储于所述第一存储空间,包括:
若读取方式为对所述原始数据集采用全量扫描的方式读取,则将所述第一分析结果存储于第一子存储空间,所述第一存储空间包括所述第一子存储空间;
若读取方式为对所述原始数据集采用抽样扫描的方式读取,则将所述第一分析结果存储于第二子存储空间,所述第一存储空间包括所述第二子存储空间。
可选地,所述对所述原始数据集进行分析,获得第一分析结果,包括:
若所述原始数据集包括结构化数据,则基于所述结构化数据,获得所述第一分析结果,所述第一分析结果包括所述结构化数据的第一特征信息;
若所述原始数据集包括非结构化数据,则基于所述非结构化数据,获得第一分析结果,所述第一分析结果包括所述非结构化数据的第二特征信息。
可选地,所述第二特征信息包括标注信息,所述将所述第一分析结果存储于所述第一存储空间,包括:
按预设存储方式将所述标注信息存储于所述第一存储空间;
其中,所述预设存储方式包括以下至少一项:
基于标注信息的标注类别,将标注信息以及对应的数据文件存在于所述标注类别对应的文件目录中;
基于标注信息以及所述标注信息对应的数据文件名称,存储所述标注信息以及对应的数据文件。
可选地,所述第一信息还包括用于指示是否将所述原始数据集分区存储的分区信息,所述基于所述数据源信息获取原始数据集之后,所述对所述原始数据集进行分析,获得第一分析结果之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京九章云极科技有限公司,未经北京九章云极科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210035840.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置