[发明专利]数据表填补方法、装置、计算机设备和存储介质在审
申请号: | 201910001784.2 | 申请日: | 2019-01-02 |
公开(公告)号: | CN109783788A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 蔡健;杨镭;黄北辰;郭凌峰;付晓 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F16/2458 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 填补 计算机设备 存储介质 缺失类型 数据处理技术 数据分析 用户上传 准确度 相关度 申请 | ||
本申请涉及一种数据表填补方法、装置、计算机设备和存储介质。该数据表填补方法涉及数据处理技术领域,所述方法包括:获取用户上传的数据表;确定数据表中的非完全字段名,非完全字段名缺少数据值;根据非完全字段名与数据表中其它字段名之间的相关度确定非完全字段名的缺失类型;根据数据表中已有的数据值,根据缺失类型对应的填补方式计算缺失值;根据缺失值填补非完全字段名缺失的数据值。采用本方案可以填补数据表中各个非完全字段名缺失的数据值,能够有效填补数据表,这样,基于填补后的数据表所进行的数据分析的准确度也会显著提高。
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据表填补方法、装置、计算机设备和存储介质。
背景技术
报表数据是数据表中的数据,是实际应用中最常见的数据的形式之一,可用于进行数据分析或生成报表展示给用户,比如贷款业务数据、人力资源数据、保险业务数据等。然而,这些报表数据不可避免地由于操作不当、系统故障、人为因素等导致数据值的缺失。
在现有的商业数据报表平台中,通常不会对数据表中缺失的数据值进行处理,或者,直接删除缺失了数据值的样本,这样,往往会导致对整个数据表中报表数据的分布形成干扰,影响数据分析的准确度。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效填补数据表中缺失的数据值的数据表填补方法、装置、计算机设备和存储介质。
一种数据表填补方法,所述方法包括:
获取用户上传的数据表;
确定所述数据表中的非完全字段名,所述非完全字段名缺少数据值;
根据所述非完全字段名与所述数据表中其它字段名之间的相关度确定所述非完全字段名的缺失类型;
根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值;
根据所述缺失值填补所述非完全字段名缺失的数据值。
在其中一个实施例中,所述确定所述数据表中缺失了数据值的非完全字段名包括:
统计所述数据表中各个字段名对应的数据值的数量;
确定所述数据表对应的样本总数;
当所述数量小于所述样本总数时,将所述字段名确定为非完全字段名。
在其中一个实施例中,所述根据所述非完全字段名与所述数据表中其它字段名之间的相关度确定所述非完全字段名的缺失类型包括:
当所述非完全字段名与所述数据表中其它字段名之间的相关度均小于第一预设值时,则确定所述非完全字段名的缺失类型为完全随机缺失;
当所述非完全字段名与所述数据表中至少一个完全字段名之间的相关度大于第二预设值时,则确定所述非完全字段名的缺失类型为随机缺失;
当所述非完全字段名与所述数据表中至少一个非完全字段名之间的相关度大于第三预设值时,则确定所述非完全字段名的缺失类型为非随机缺失。
在其中一个实施例中,所述缺失类型为完全随机缺失;所述根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值包括:
当所述非完全字段名对应的数据值类型为字符型时,则根据所述非完全字段名已有的数据值统计相应的中位数,将统计的所述中位数作为所述非完全字段名对应的缺失值;或,根据所述非完全字段名已有的数据值统计相应的众数,将统计的所述众数作为所述非完全字段名对应的缺失值;
当所述非完全字段名对应的数据值类型为数值型时,则根据所述非完全字段名已有的数据值统计相应的平均数,将统计的所述平均数作为所述非完全字段名对应的缺失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910001784.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结构化文档的生成方法、装置及存储介质
- 下一篇:一种电子文书制作系统