[发明专利]基于神经网络的k-NN算法中k值预测方法及装置在审
申请号: | 201811248561.8 | 申请日: | 2018-10-25 |
公开(公告)号: | CN111104950A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 程静;张博;张雪莹;杨云祥;郭静;李瑞贤 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 李勤媛 |
地址: | 100041 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 nn 算法 预测 方法 装置 | ||
本发明公开了一种基于神经网络的k‑NN算法中k值预测方法及装置,所述方法包括:利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。
技术领域
本发明涉及分类算法技术领域,尤其涉及一种基于神经网络的k-NN算法中 k值预测方法及装置。
背景技术
在现有技术中,k-最近邻方法是一种基于实例学习的分类算法,通过将待分类样本与其相似的训练样本进行比较来学习,该方法理论简单,有效,易于理解,已被广泛应用于文本文类、市场营销、生物学及模式识别等领域。
当对未知样本进行分类时,k-NN分类算法首先从训练集中找出距离该样本最近的k个近邻,然后根据k最近邻的类别,投票确定未知样本的类别。如果k 值太小,那么k-NN分类算法容易受到噪声的影响,从而导致过度拟合;相反,如果k值太大,增加计算开销的同时,异常点的引入将会降低k-NN算法的分类精度。为待分类问题推荐一个合适的k值,对于k最近邻分类算法的分类性能至关重要。目前关于k-NN分类算法优化的研究工作主要集中于:(1)加权k-NN,试图为k个最近邻分配适当的权重,以便提高k-NN算法的分类精度;(2)压缩或编辑k-NN,删除训练集中的某些样本,以改善k-NN算法的分类精度及分类效率。在使用k-NN进行分类时,无论加权还是压缩编辑训练集,仍须预先设定一个合适的k值,才能保证k-NN分类算法的性能。然而,关于最近邻个数k值的确定及优化的研究工作并不多。
在现有技术中,关于最近邻个数k值的确定及优化的研究工作中,已有方法可分为以下四大类:(1)k=1(1-NN),找出离未知样本最近的一个训练样本,将未知样本分派给最近样本所属的类别。1-NN算法虽简单、快捷,但极易受噪声数据的影响。依据“No freelunch”原则,并不存在单一的方法能够解决所有问题。同理,单一k值对应的k-NN分类算法并不适用于解决所有的分类问题; (2)交叉验证法(“留一法”和n折交叉验证),预先设定最近邻个数k的取值范围。从k=1开始,重复地进行交叉验证,评估k-NN算法的分类精度,将最高分类精度对应的k值作为最优k值。交叉验证法是最常用的参数优化方法,可以确定不同分类问题上的最优k值,但其计算开销大,难以广泛地用于解决实际分类问题;(3)启发式方法,依据训练集中样本数量或类分布,为未知数据集指定一个适当的k值。Okamoto和Yugami发现训练集样本数量越多时,最优 k值越大,但并没有给出具体的k值预测模型,从而无法指导实际应用;(4)遗传算法(GAk-NN),基于生物进化“适者生存”理论,预先设定一个初始k值,经不断地交叉变异,最终收敛得到一个最优k值。遗传优化算法的进化过程随机性大,迭代次数多,易于陷入局部最优。当数据集规模较大时,遗传算法的收敛过程缓慢,难以获得相应的实验结果。大多数的k值选择方法致力于通过反复实验,寻找最优k值,并没有全面地分析数据集本身的特征与最近邻个数k 值之间的关系,也没有给出统一的预测模型。
发明内容
本发明实施例提供一种基于神经网络的k-NN算法中k值预测方法及装置,用以解决现有技术中的上述问题。
本发明实施例提供一种基于神经网络的k-NN算法中k值预测方法,包括:
利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型;
当新数据集到来时,抽取其特征度量作为k值预测模型的输入进行k值预测,获取从所述k值预测模型中输出的待分类问题上的最优k值。
优选地,利用机器学习方法分析历史数据集的特征和最优k值间的内在关系,并根据所述内在关系构建相应的k值预测模型具体包括:
从每个历史数据集中,抽取可用的数据集特征度量,同时采用交叉验证方法确定每个数据集上的最优k值,建立数据集特征与最优k值的关系数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811248561.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:同分异构体的分离提纯方法
- 下一篇:基于签到数据的地点推荐方法及装置