[发明专利]一种基于GKNN的改进样本数据缺失值的填补算法在审
| 申请号: | 201811202566.7 | 申请日: | 2018-10-16 |
| 公开(公告)号: | CN109472343A | 公开(公告)日: | 2019-03-15 |
| 发明(设计)人: | 刘军科;丁云飞 | 申请(专利权)人: | 上海电机学院 |
| 主分类号: | G06N3/02 | 分类号: | G06N3/02 |
| 代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 王一琦 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 算法 样本数据 样本 变异性 填补 迭代填充 关联系数 缺失数据 数据缺失 数据属性 相邻样本 异构数据 关联性 近似 改进 预测 | ||
本发明提出一种基于GKNN的改进样本数据缺失值的填补算法,该算法利用灰色关联系数对数据中不确定的样本进行合理的预测,通过数据间的灰色距离得出相关数据属性变异性与关联性,从而得到数据缺失样本的K个近似相邻样本。这种采用新的KNN差补迭代填充缺失数据的方式来处理异构数据的方法被命名为GKNN。
技术领域
本发明涉及到关于GKNN的缺失数据填充方法领域,即是涉及到一种灰色关联最近邻缺失数据的填充方法。
背景技术
数据缺失破坏了原数据的完整性和真实性,很多的统计工具直接将缺失数据缺省,这种处理方法虽然效率高,但当使用处理过的数据集进行数据挖掘时,将会使聚类模型产生倾斜,从而使挖掘结果产生偏差。目前比较好的缺失值处理方法是对不完整的数据记录进行填充。数据填充常见算法有KNN、贝叶斯网络、神经网络等。KNN算法计算量较大;贝叶斯网络需要的数据多,分析计算比较复杂,特别在解决复杂问题时,这个矛盾就更为突出;神经网络算法常常会出现局部最优的问题,而且无法用神经网络直观地解释推理过程和推理依据。
因此,有必要设计一种改进样本数据缺失值的填补算法,以克服上述缺陷。
发明内容
本发明的目的是提供,减少样本数据缺失算法的运算复杂度、改善近邻数据样本的准确度,同时改善样本数据填补值的预测准确度。
本发明为解决其技术问题所采用的技术方案是:
一种基于GKNN的改进样本数据缺失值的填补算法,包括以下步骤:
(1)样本的初始化:设样本数据集x={x1,x2,……xn};
(2)属性集合的逆化和倒数化:
逆化:
Xi=1-xi(k),xi(k)∈[0,1],k=1,2,……,n
倒数化:
Xi=1/xi(k),Xi(k)≠0,k=1,2,……,n
n为数据举例的个数;对样本数据集合进行定义说明第i条事例Xi的样本属性j值为xij,将xij表示为:
Xij=K1jXi1+K2jXi2+……+KmjXim,t≠m
上式中,m为Xi的样本属性的总和,Ktj表示属性t对于属性j的权重系数;
(3)有序的GKNN的计算:
灰色关联度的实质就是样本数据和参考数据曲线形状的相似程度,可用曲线间的差值大小作为关联度的衡量标准,则知:
Δi(k)=|xa(k)-xi(k)|,k=1,2,……,n
两极最大差与最小差:
则GKNN的灰色关联系数为:
上式中ρ为分辨系数,其用于削弱Δ(max)过大而使关联系数失真的影响;
用样本数据与参考数据各个时期的关联系数的平均值来定量反映这两类数据的关联程度,其GKNN灰色关联度为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811202566.7/2.html,转载请声明来源钻瓜专利网。





