[发明专利]一种基于图卷积网络的缺失特征重表示方法及系统在审
| 申请号: | 202110211503.3 | 申请日: | 2021-02-25 |
| 公开(公告)号: | CN113033768A | 公开(公告)日: | 2021-06-25 |
| 发明(设计)人: | 蒋鑫龙;陈益强;沈鸿;张忠平;王永斌;刘廉如 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图卷 网络 缺失 特征 表示 方法 系统 | ||
本发明提出一种基于图卷积网络的缺失特征重表示方法和系统,包括:提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。
技术领域
本发明涉及机器学习领域,具体涉及一种基于图卷积网络的缺失特征重表示方法。该方法作为一项在机器学习中处理特征缺失这类异常数据的方法,可以有效解决特征缺失引起的模型失效问题。
背景技术
目前的机器学习模型方法中需要保持特征维数一致,而在现实环境下存在信源数据缺失的问题,如无线信号不稳定、传感器自身特性、高动态环境变化剧烈等因素都会使得出现数据缺失的情况,且严重程度随着模型所适应环境范围的不断扩大而增加。数据的缺失会导致提取的特征难度增大等问题,进而降低机器学习模型性能。
对于实际应用中的数据缺失,如果某些特征缺失较严重的情况采取直接丢弃特征的方法来保持特征维度的一致,如果某些特征缺失较少则采取特征补齐的方式以降低数据缺失特征的影响。
现有技术中,丢失缺失的方法无法适用于高动态的环境,保持特征维数一致的成本较高,而特征补齐通用的方法如均值填充又只能适应于比较简单的缺失问题。各种现有的针对数据缺失问题的处理方法都没有充分利用缺失特征的样本与其他样本之间的相关性。
发明内容
本发明的目的是克服机器学习过程中特征缺失而对模型训练带来较大困难,在此问题上提出了一种基于图卷积网络的数据缺失特征重表示方法。
针对现有技术的不足,本发明提出一种基于图卷积网络的缺失特征重表示方法,其特征在于,包括:
步骤1、提取已标注类别的训练样本的特征,将该训练样本的特征作为节点,通过距离度量得到节点与节点之间的相似关系,根据该相似关系构建节点之间形成连接边,以得到该训练样本的图网络;
步骤2、以该图网络中邻近样本的特征信息和图中各节点对应的标注类别,训练图卷积网络,得到特征重表示模型,通过将待分类样本的特征输入该特征重表示模型,重建该待分类样本的特征并为重建后的特征进行分类,得到该待分类样本的分类结果。
所述的基于图卷积网络的缺失特征重表示方法,其特征在于,该训练样本和该待分类样本为图像数据或电离层数据或葡萄酒质量数据。
所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤1中该距离度量具体为:
其中,X和Y分别为该训练样本的特征向量,X=(x1,x2,…,xn)、Y=(y1,y2,…,yn),d(X,Y)为节点与节点之间的相似度,m为样本之间都存在的特征维度。
所述的基于图卷积网络的缺失特征重表示方法,其特征在于,步骤2包括图卷积网络的构建步骤:
步骤21、根据预设的卷积网络层数和K值,形成多个以卷积网络层数和K值构成的组合,初始设置组合方式C=NULL以及测试精度H=0;
步骤22、从多个以卷积网络层数和K值构成的组合中选择一种组合,构建测试网络,选择一部分训练样本作为训练集,另一部分训练样本作为测试集;
步骤23、以该训练集训练该测试网络,并对该测试集中样本进行预测,输出预测结果,得到分类识别精度h;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110211503.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:Web容器注入的实现方法、装置、计算机设备及存储介质
- 下一篇:一种安检系统





