[发明专利]数据表处理方法、装置、计算机设备和存储介质有效
| 申请号: | 202210483492.9 | 申请日: | 2022-05-06 |
| 公开(公告)号: | CN114579584B | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 钟子宏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据表 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种数据表处理方法、装置、计算机设备、存储介质和计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括:获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容,所述多个数据源表中至少两个数据源表的数据结构不同;根据所述多个数据源表各自的字段名和对应的字段内容,构建每个所述数据源表分别对应的中间表;每个所述中间表具有相同数据结构;将各所述数据源表的字段名组织成数据宽表中的宽表字段名;基于所述宽表字段名,对每个所述中间表中的字段内容进行数据聚合处理,得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。采用本方法能够更灵活地生成数据宽表。
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据表处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了机器学习技术,机器学习中进行需要进行模型训练。模型训练所需的训练数据需要采集各个日志数据源的不同数据,并进行数据挖掘和拼接得到。训练数据通常存储在大数据仓库中,而在大数据仓库中,数据按照不同的主题分布在不同的数据表中。
传统技术对训练数据进行分析时,将这些训练数据所属的数据表通过关联规则匹配生成特征宽表,以从特征宽表中获取所需的训练数据。由于目前的模型版本迭代较快,所产生的日志数据源的数据量大,而通过关联规则匹配生成特征宽表的计算复杂,生成方式不灵活。
发明内容
基于此,有必要针对上述技术问题,提供一种能够灵活生成数据宽表的数据表处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种数据表处理方法,所述方法包括:
获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容,所述多个数据源表中至少两个数据源表的数据结构不同;
根据所述多个数据源表各自的字段名和对应的字段内容,构建每个所述数据源表分别对应的中间表;每个所述中间表具有相同数据结构;
将各所述数据源表的字段名组织成数据宽表中的宽表字段名;
基于所述宽表字段名,对每个所述中间表中的字段内容进行数据聚合处理,得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。
本申请还提供了一种数据表处理装置,所述装置包括:
获取模块,用于获取多个数据源表各自的字段名以及与每个所述字段名对应的字段内容,所述多个数据源表中至少两个数据源表的数据结构不同;
构建模块,用于根据所述多个数据源表各自的字段名和对应的字段内容,构建每个所述数据源表分别对应的中间表;每个所述中间表具有相同数据结构;
组织模块,用于将各所述数据源表的字段名组织成数据宽表中的宽表字段名;
处理模块,用于基于所述宽表字段名,对每个所述中间表中的字段内容进行数据聚合处理,得到所述数据宽表中与所述宽表字段名对应的宽表字段内容。
在一个实施例中,所述获取模块,还用于获取多个数据源表各自的源地址,并将各所述源地址分发至分布式集群的多个服务器;通过多个所述服务器并行从各自接收的源地址所对应的数据源表中提取字段名以及与每个所述字段名对应的字段内容;所述构建模块,还用于通过多个所述服务器根据各自提取的字段名,以及所提取字段名在所属数据源表中所对应的字段内容,并行构建相应数据源表对应的中间表。
在一个实施例中,所述数据源表的字段名包括第一标识字段名和特征字段名,所述字段内容包括所述第一标识字段名对应的第一对象标识和所述特征字段名对应的特征内容,所述中间表包括第二标识字段名、键字段名和值字段名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210483492.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:集成ESD多晶硅层的半导体装置
- 下一篇:一种水文信息采集用测量装置





