[发明专利]数据表填补方法、装置、计算机设备和存储介质在审
申请号: | 201910001784.2 | 申请日: | 2019-01-02 |
公开(公告)号: | CN109783788A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 蔡健;杨镭;黄北辰;郭凌峰;付晓 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F16/2458 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 填补 计算机设备 存储介质 缺失类型 数据处理技术 数据分析 用户上传 准确度 相关度 申请 | ||
1.一种数据表填补方法,所述方法包括:
获取用户上传的数据表;
确定所述数据表中的非完全字段名,所述非完全字段名缺少数据值;
根据所述非完全字段名与所述数据表中其它字段名之间的相关度确定所述非完全字段名的缺失类型;
根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值;
根据所述缺失值填补所述非完全字段名缺失的数据值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述非完全字段名与所述数据表中其它字段名之间的相关度确定所述非完全字段名的缺失类型包括:
当所述非完全字段名与所述数据表中其它字段名之间的相关度均小于第一预设值时,则确定所述非完全字段名的缺失类型为完全随机缺失;
当所述非完全字段名与所述数据表中至少一个完全字段名之间的相关度大于第二预设值时,则确定所述非完全字段名的缺失类型为随机缺失;
当所述非完全字段名与所述数据表中至少一个非完全字段名之间的相关度大于第三预设值时,则确定所述非完全字段名的缺失类型为非随机缺失。
3.根据权利要求1所述的方法,其特征在于,所述缺失类型为完全随机缺失;所述根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值包括:
当所述非完全字段名对应的数据值类型为字符型时,则根据所述非完全字段名已有的数据值统计相应的中位数,将统计的所述中位数作为所述非完全字段名对应的缺失值;或,根据所述非完全字段名已有的数据值统计相应的众数,将统计的所述众数作为所述非完全字段名对应的缺失值;
当所述非完全字段名对应的数据值类型为数值型时,则根据所述非完全字段名已有的数据值统计相应的平均数,将统计的所述平均数作为所述非完全字段名对应的缺失值。
4.根据权利要求1所述的方法,其特征在于,所述缺失类型为完全随机缺失;所述根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值包括:
确定所述数据表中缺失了所述非完全字段名对应的数据值的第一类样本;
确定所述数据表中所述非完全字段名对应的数据值存在的第二类样本;
统计所述第一类样本的样本数量;
计算所述样本数量占所述样本总数的比例;
当所述比例大于阈值时,则将所述第一类样本在所述非完全字段名下的数据值替换为第一值;将所述第二类样本在所述非完全字段名下的数据值替换为第二值。
5.根据权利要求1所述的方法,其特征在于,所述缺失类型为随机缺失;所述根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值包括:
确定与所述非完全字段名相关的完全字段名;
按照所述完全字段名的数据值对所述数据表中的样本进行聚类,得到聚类簇;
确定所述数据表中缺失了所述非完全字段名对应的数据值的第三类样本;
计算所述第三类样本所属的聚类簇所包括样本在所述非完全字段名下的均值,将计算得到的均值作为待填补的缺失值。
6.根据权利要求1所述的方法,其特征在于,所述缺失类型为随机缺失;所述根据所述数据表中已有的数据值,根据所述缺失类型对应的填补方式计算缺失值包括:
确定所述数据表中所述非完全字段名对应的数据值存在的第一样本集合以及所述非完全字段名对应的数据值缺失的第二样本集合;
根据所述第一样本集合中与所述非完全字段名相关的完全字段名对应的数据值构建预测模型;
将所述第二样本集合中各个样本在所述完全字段名对应的数据值输入至所述预测模型中,通过所述预测模型输出所述第二样本集合中各个样本在所述非完全字段名下的预测值;
将所述预测值作为待填补的缺失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910001784.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结构化文档的生成方法、装置及存储介质
- 下一篇:一种电子文书制作系统