[发明专利]基于神经网络的k-NN算法中k值预测方法及装置在审

专利信息
申请号: 201811248561.8 申请日: 2018-10-25
公开(公告)号: CN111104950A 公开(公告)日: 2020-05-05
发明(设计)人: 程静;张博;张雪莹;杨云祥;郭静;李瑞贤 申请(专利权)人: 中国电子科技集团公司电子科学研究院
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 工业和信息化部电子专利中心 11010 代理人: 李勤媛
地址: 100041 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神经网络 nn 算法 预测 方法 装置
【说明书】:

发明公开了一种基于神经网络的k‑NN算法中k值预测方法及装置,所述方法包括:利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。

技术领域

本发明涉及分类算法技术领域,尤其涉及一种基于神经网络的k-NN算法中 k值预测方法及装置。

背景技术

在现有技术中,k-最近邻方法是一种基于实例学习的分类算法,通过将待分类样本与其相似的训练样本进行比较来学习,该方法理论简单,有效,易于理解,已被广泛应用于文本文类、市场营销、生物学及模式识别等领域。

当对未知样本进行分类时,k-NN分类算法首先从训练集中找出距离该样本最近的k个近邻,然后根据k最近邻的类别,投票确定未知样本的类别。如果k 值太小,那么k-NN分类算法容易受到噪声的影响,从而导致过度拟合;相反,如果k值太大,增加计算开销的同时,异常点的引入将会降低k-NN算法的分类精度。为待分类问题推荐一个合适的k值,对于k最近邻分类算法的分类性能至关重要。目前关于k-NN分类算法优化的研究工作主要集中于:(1)加权k-NN,试图为k个最近邻分配适当的权重,以便提高k-NN算法的分类精度;(2)压缩或编辑k-NN,删除训练集中的某些样本,以改善k-NN算法的分类精度及分类效率。在使用k-NN进行分类时,无论加权还是压缩编辑训练集,仍须预先设定一个合适的k值,才能保证k-NN分类算法的性能。然而,关于最近邻个数k值的确定及优化的研究工作并不多。

在现有技术中,关于最近邻个数k值的确定及优化的研究工作中,已有方法可分为以下四大类:(1)k=1(1-NN),找出离未知样本最近的一个训练样本,将未知样本分派给最近样本所属的类别。1-NN算法虽简单、快捷,但极易受噪声数据的影响。依据“No freelunch”原则,并不存在单一的方法能够解决所有问题。同理,单一k值对应的k-NN分类算法并不适用于解决所有的分类问题; (2)交叉验证法(“留一法”和n折交叉验证),预先设定最近邻个数k的取值范围。从k=1开始,重复地进行交叉验证,评估k-NN算法的分类精度,将最高分类精度对应的k值作为最优k值。交叉验证法是最常用的参数优化方法,可以确定不同分类问题上的最优k值,但其计算开销大,难以广泛地用于解决实际分类问题;(3)启发式方法,依据训练集中样本数量或类分布,为未知数据集指定一个适当的k值。Okamoto和Yugami发现训练集样本数量越多时,最优 k值越大,但并没有给出具体的k值预测模型,从而无法指导实际应用;(4)遗传算法(GAk-NN),基于生物进化“适者生存”理论,预先设定一个初始k值,经不断地交叉变异,最终收敛得到一个最优k值。遗传优化算法的进化过程随机性大,迭代次数多,易于陷入局部最优。当数据集规模较大时,遗传算法的收敛过程缓慢,难以获得相应的实验结果。大多数的k值选择方法致力于通过反复实验,寻找最优k值,并没有全面地分析数据集本身的特征与最近邻个数k 值之间的关系,也没有给出统一的预测模型。

发明内容

本发明实施例提供一种基于神经网络的k-NN算法中k值预测方法及装置,用以解决现有技术中的上述问题。

本发明实施例提供一种基于神经网络的k-NN算法中k值预测方法,包括:

利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;

当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。

优选地,利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型具体包括:

从每个历史数据集中,抽取可用的数据集特征度量,同时采用交叉验证方法确定每个数据集上的最优k值,建立数据集特征与最优k值的关系数据库;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811248561.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top