[发明专利]一种基于GKNN的改进样本数据缺失值的填补算法在审

申请号：	201811202566.7	申请日：	2018-10-16
公开（公告）号：	CN109472343A	公开（公告）日：	2019-03-15
发明（设计）人：	刘军科;丁云飞	申请（专利权）人：	上海电机学院
主分类号：	G06N3/02	分类号：	G06N3/02
代理公司：	上海伯瑞杰知识产权代理有限公司 31227	代理人：	王一琦
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于GKNN的改进样本数据缺失值的填补算法，该算法利用灰色关联系数对数据中不确定的样本进行合理的预测，通过数据间的灰色距离得出相关数据属性变异性与关联性，从而得到数据缺失样本的K个近似相邻样本。这种采用新的KNN差补迭代填充缺失数据的方式来处理异构数据的方法被命名为GKNN。
搜索关键词：	算法样本数据样本变异性填补迭代填充关联系数缺失数据数据缺失数据属性相邻样本异构数据关联性近似改进预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于GKNN的改进样本数据缺失值的填补算法，其特征在于，包括以下步骤：(1)样本的初始化：设样本数据集x＝{x1，x2，……xn}；(2)属性集合的逆化和倒数化：逆化：Xi＝1‑xi(k),xi(k)∈[0,1],k＝1,2,……n倒数化：Xi＝1/xi(k),Xi(k)≠0,k＝1,2,……,nn为数据举例的个数；对样本数据集合进行定义说明第i条事例Xi的样本属性j值为xij，将xij表示为：Xij＝K1jXi1+K2jXi2+......+KmjXim，t≠m上式中，m为Xi的样本属性的总和，Ktj表示属性t对于属性j的权重系数；(3)有序的GKNN的计算：灰色关联度的实质就是样本数据和参考数据曲线形状的相似程度，可用曲线间的差值大小作为关联度的衡量标准，则知：Δi(k)＝|xa(k)‑xi(k)|,k＝1,2,……,n两极最大差与最小差：则GKNN的灰色关联系数为：上式中ρ为分辨系数，其用于削弱Δ(max)过大而使关联系数失真的影响；用样本数据与参考数据各个时期的关联系数的平均值来定量反映这两类数据的关联程度，其GKNN灰色关联度为：(4)数值权重系数的计算：根据灰色关联度Yoi计算各指标的权重系数，其公式为：上式中，Ki为各指标的权重；(5)计算出缺失值：根据计算得到的曼哈顿距离，选择距离最短的K个元素作为目标元素g的最近邻居，然后通过这K个邻居元素提供的信息，对目标元素中缺失值进行预测和估计；利用信息论中熵值的概念，确定各最近邻居元素在对缺失值计算时的加权系数，其步骤如下：1)将计算得到的两点之间最近邻距离单位化：d_i为第i个近邻与目标元素的曼哈顿距离；易得，上式中分母为1；2)求出第i个邻居元素的熵值：hi＝‑mpilnpi,i＝1,2,…k，其中，m为大于0的常数，第i个相似的元素的变化程度系数为：vi＝1‑hi,i＝1,2,…k；3)求出第i个邻居元素的加权系数：相似元素的变化程度越小，其包含的确定性信息就越大，则对应得加权系数就越大，反之越小；4)求出缺失值：其中x_i为相似元素中与缺失值对应位置的表达水平值，g即为目标元素的缺失值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海电机学院，未经上海电机学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811202566.7/，转载请声明来源钻瓜专利网。

上一篇：一种自优化的仿生自修复硬件故障重构机制设计
下一篇：类神经网络系统的设计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于GKNN的改进样本数据缺失值的填补算法在审

专利文献下载