[发明专利]一种快速向量化的通用多邻域的数据集分类方法、系统在审
申请号: | 202110775748.9 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113435533A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 刘春静;张磊 | 申请(专利权)人: | 安徽信息工程学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 芜湖创启知识产权代理事务所(普通合伙) 34181 | 代理人: | 周锟 |
地址: | 241000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 量化 通用 邻域 数据 分类 方法 系统 | ||
本发明实施例提供一种快速向量化的通用多邻域的数据集分类方法、系统,属于计算机科学、统计学技术领域。该快速向量化的通用多邻域的数据集分类方法、系统将用户给定的数据集拆分为随机配置的训练数据集和测试数据集,以向量或矩阵的形式对所有数据集进行块状运算,避免了分类过程中使用的大量循环操作,充分利用了内存存储空间,极大地提高了并行运算的效率,尤其适合于大规模数据分类的实时计算。
技术领域
本发明涉及计算机科学、统计学技术领域,具体地涉及一种快速向量化的通用多邻域的数据集分类方法、系统。
背景技术
有监督学习的分类与识别技术是计算机机器学习领域中的重要分支之一,与无监督学习相比,有监督学习能够通过足够的大数据信息来提高算法的分类与识别精度。随着计算机技术、互联网技术及电子技术的飞速发展,大数据的获取、存储与分析越来越方便快捷,从而进一步促进了有监督学习技术的长足进步。邻域分类方法是有监督学习技术的重要组成部分,其核心思想是通过一定的邻域判决准则(如欧式距离、Manhattan距离、Sorensen距离等)将距离相近的数据归为一类,利用特征相似度预测新输入的数据,并根据新数据与训练数据集中的特征匹配程度进行识别,是一种非参数的学习方法,不需要对待处理数据进行任何假设。
K-最近邻算法是最常用的邻域分类算法之一,主要分为三个步骤:第一步:加载训练数据集和测试数据集;第二步:根据经验确定最近邻K的取值,K为任意正整数;第三步:对测试数据中的每一个点分别执行以下操作:计算测试数据与该点之间的距离;根据计算得到的距离值进行排序,并保留距离最近的前K个值;选择距离上最近的类别作为当前点的分类。
在K-最近邻算法的基础上,人们又根据工程实践的需要提出了多种不同形式的改进算法,如模糊K-最近邻、优化交叉验证的K-最近邻等。虽然K-最近邻算法具有简单、易于实现、易于理解的优点,非常适合于多分类问题的,但K值的选择、类别判定准则、变量值域等方面都存在需要权衡的问题。以K值选择为例,如果K值太小,则分类结果容易受到噪声数据的影响;如果K值太大,则近邻数据点之间的影响可能会过大,导致不同类别数据之间的交叉。为了提高多邻域算法的通用性和实用性,一方面要解决训练数据集和测试数据集划分的问题,另一方面要充分利用分配的内存资源,提高算法的并行处理能力。
发明内容
本发明实施例的目的是提供一种快速向量化的通用多邻域的数据集分类方法、系统,该快速向量化的通用多邻域的数据集分类方法、系统将用户给定的数据集拆分为随机配置的训练数据集和测试数据集,以向量或矩阵的形式对所有数据集进行块状运算,避免了分类过程中使用的大量循环操作,充分利用了内存存储空间,极大地提高了并行运算的效率,尤其适合于大规模数据分类的实时计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽信息工程学院,未经安徽信息工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775748.9/2.html,转载请声明来源钻瓜专利网。