[发明专利]一种基于GKNN的改进样本数据缺失值的填补算法在审
申请号: | 201811202566.7 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109472343A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 刘军科;丁云飞 | 申请(专利权)人: | 上海电机学院 |
主分类号: | G06N3/02 | 分类号: | G06N3/02 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 王一琦 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于GKNN的改进样本数据缺失值的填补算法,该算法利用灰色关联系数对数据中不确定的样本进行合理的预测,通过数据间的灰色距离得出相关数据属性变异性与关联性,从而得到数据缺失样本的K个近似相邻样本。这种采用新的KNN差补迭代填充缺失数据的方式来处理异构数据的方法被命名为GKNN。 | ||
搜索关键词: | 算法 样本数据 样本 变异性 填补 迭代填充 关联系数 缺失数据 数据缺失 数据属性 相邻样本 异构数据 关联性 近似 改进 预测 | ||
【主权项】:
1.一种基于GKNN的改进样本数据缺失值的填补算法,其特征在于,包括以下步骤:(1)样本的初始化:设样本数据集x={x1,x2,……xn};(2)属性集合的逆化和倒数化:逆化:Xi=1‑xi(k),xi(k)∈[0,1],k=1,2,……n倒数化:Xi=1/xi(k),Xi(k)≠0,k=1,2,……,nn为数据举例的个数;对样本数据集合进行定义说明第i条事例Xi的样本属性j值为xij,将xij表示为:Xij=K1jXi1+K2jXi2+......+KmjXim,t≠m上式中,m为Xi的样本属性的总和,Ktj表示属性t对于属性j的权重系数;(3)有序的GKNN的计算:灰色关联度的实质就是样本数据和参考数据曲线形状的相似程度,可用曲线间的差值大小作为关联度的衡量标准,则知:Δi(k)=|xa(k)‑xi(k)|,k=1,2,……,n两极最大差与最小差:![]()
则GKNN的灰色关联系数为:
上式中ρ为分辨系数,其用于削弱Δ(max)过大而使关联系数失真的影响;用样本数据与参考数据各个时期的关联系数的平均值来定量反映这两类数据的关联程度,其GKNN灰色关联度为:
(4)数值权重系数的计算:根据灰色关联度Yoi计算各指标的权重系数,其公式为:
上式中,Ki为各指标的权重;(5)计算出缺失值:根据计算得到的曼哈顿距离,选择距离最短的K个元素作为目标元素g的最近邻居,然后通过这K个邻居元素提供的信息,对目标元素中缺失值进行预测和估计;利用信息论中熵值的概念,确定各最近邻居元素在对缺失值计算时的加权系数,其步骤如下:1)将计算得到的两点之间最近邻距离单位化:
di为第i个近邻与目标元素的曼哈顿距离;易得,上式中分母为1;2)求出第i个邻居元素的熵值:hi=‑mpilnpi,i=1,2,…k,其中,m为大于0的常数,第i个相似的元素的变化程度系数为:vi=1‑hi,i=1,2,…k;3)求出第i个邻居元素的加权系数:
相似元素的变化程度越小,其包含的确定性信息就越大,则对应得加权系数就越大,反之越小;4)求出缺失值:
其中xi为相似元素中与缺失值对应位置的表达水平值,g即为目标元素的缺失值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电机学院,未经上海电机学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811202566.7/,转载请声明来源钻瓜专利网。