[发明专利]一种快速向量化的通用多邻域的数据集分类方法、系统在审

申请号：	202110775748.9	申请日：	2021-07-09
公开（公告）号：	CN113435533A	公开（公告）日：	2021-09-24
发明（设计）人：	刘春静;张磊	申请（专利权）人：	安徽信息工程学院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	芜湖创启知识产权代理事务所(普通合伙) 34181	代理人：	周锟
地址：	241000 ***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种快速量化通用邻域数据分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种快速向量化的通用多邻域的数据集分类方法、系统，属于计算机科学、统计学技术领域。该快速向量化的通用多邻域的数据集分类方法、系统将用户给定的数据集拆分为随机配置的训练数据集和测试数据集，以向量或矩阵的形式对所有数据集进行块状运算，避免了分类过程中使用的大量循环操作，充分利用了内存存储空间，极大地提高了并行运算的效率，尤其适合于大规模数据分类的实时计算。

技术领域

本发明涉及计算机科学、统计学技术领域，具体地涉及一种快速向量化的通用多邻域的数据集分类方法、系统。

背景技术

有监督学习的分类与识别技术是计算机机器学习领域中的重要分支之一，与无监督学习相比，有监督学习能够通过足够的大数据信息来提高算法的分类与识别精度。随着计算机技术、互联网技术及电子技术的飞速发展，大数据的获取、存储与分析越来越方便快捷，从而进一步促进了有监督学习技术的长足进步。邻域分类方法是有监督学习技术的重要组成部分，其核心思想是通过一定的邻域判决准则(如欧式距离、Manhattan距离、Sorensen距离等)将距离相近的数据归为一类，利用特征相似度预测新输入的数据，并根据新数据与训练数据集中的特征匹配程度进行识别，是一种非参数的学习方法，不需要对待处理数据进行任何假设。

K-最近邻算法是最常用的邻域分类算法之一，主要分为三个步骤：第一步：加载训练数据集和测试数据集；第二步：根据经验确定最近邻K的取值，K为任意正整数；第三步：对测试数据中的每一个点分别执行以下操作：计算测试数据与该点之间的距离；根据计算得到的距离值进行排序，并保留距离最近的前K个值；选择距离上最近的类别作为当前点的分类。

在K-最近邻算法的基础上，人们又根据工程实践的需要提出了多种不同形式的改进算法，如模糊K-最近邻、优化交叉验证的K-最近邻等。虽然K-最近邻算法具有简单、易于实现、易于理解的优点，非常适合于多分类问题的，但K值的选择、类别判定准则、变量值域等方面都存在需要权衡的问题。以K值选择为例，如果K值太小，则分类结果容易受到噪声数据的影响；如果K值太大，则近邻数据点之间的影响可能会过大，导致不同类别数据之间的交叉。为了提高多邻域算法的通用性和实用性，一方面要解决训练数据集和测试数据集划分的问题，另一方面要充分利用分配的内存资源，提高算法的并行处理能力。

发明内容

本发明实施例的目的是提供一种快速向量化的通用多邻域的数据集分类方法、系统，该快速向量化的通用多邻域的数据集分类方法、系统将用户给定的数据集拆分为随机配置的训练数据集和测试数据集，以向量或矩阵的形式对所有数据集进行块状运算，避免了分类过程中使用的大量循环操作，充分利用了内存存储空间，极大地提高了并行运算的效率，尤其适合于大规模数据分类的实时计算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽信息工程学院，未经安徽信息工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110775748.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种抗静电防尘镜片涂层及其制备方法
下一篇：永磁同步电机的强鲁棒性模型预测控制方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种快速向量化的通用多邻域的数据集分类方法、系统在审

专利文献下载