[发明专利]一种基于GKNN的改进样本数据缺失值的填补算法在审

申请号：	201811202566.7	申请日：	2018-10-16
公开（公告）号：	CN109472343A	公开（公告）日：	2019-03-15
发明（设计）人：	刘军科;丁云飞	申请（专利权）人：	上海电机学院
主分类号：	G06N3/02	分类号：	G06N3/02
代理公司：	上海伯瑞杰知识产权代理有限公司 31227	代理人：	王一琦
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	算法样本数据样本变异性填补迭代填充关联系数缺失数据数据缺失数据属性相邻样本异构数据关联性近似改进预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于GKNN的改进样本数据缺失值的填补算法，该算法利用灰色关联系数对数据中不确定的样本进行合理的预测，通过数据间的灰色距离得出相关数据属性变异性与关联性，从而得到数据缺失样本的K个近似相邻样本。这种采用新的KNN差补迭代填充缺失数据的方式来处理异构数据的方法被命名为GKNN。

技术领域

本发明涉及到关于GKNN的缺失数据填充方法领域，即是涉及到一种灰色关联最近邻缺失数据的填充方法。

背景技术

数据缺失破坏了原数据的完整性和真实性，很多的统计工具直接将缺失数据缺省，这种处理方法虽然效率高，但当使用处理过的数据集进行数据挖掘时，将会使聚类模型产生倾斜，从而使挖掘结果产生偏差。目前比较好的缺失值处理方法是对不完整的数据记录进行填充。数据填充常见算法有KNN、贝叶斯网络、神经网络等。KNN算法计算量较大；贝叶斯网络需要的数据多，分析计算比较复杂，特别在解决复杂问题时，这个矛盾就更为突出；神经网络算法常常会出现局部最优的问题，而且无法用神经网络直观地解释推理过程和推理依据。

因此，有必要设计一种改进样本数据缺失值的填补算法，以克服上述缺陷。

发明内容

本发明的目的是提供，减少样本数据缺失算法的运算复杂度、改善近邻数据样本的准确度，同时改善样本数据填补值的预测准确度。

本发明为解决其技术问题所采用的技术方案是：

一种基于GKNN的改进样本数据缺失值的填补算法，包括以下步骤：

(1)样本的初始化：设样本数据集x＝{x₁，x₂，……x_n}；

(2)属性集合的逆化和倒数化：

逆化：

X_i＝1-x_i(k),x_i(k)∈[0,1],k＝1,2,……，n

倒数化：

X_i＝1/x_i(k),X_i(k)≠0,k＝1,2,……,n

n为数据举例的个数；对样本数据集合进行定义说明第i条事例Xi的样本属性j值为x_ij，将x_ij表示为：