[发明专利]一种快速向量化的通用多邻域的数据集分类方法、系统在审
| 申请号: | 202110775748.9 | 申请日: | 2021-07-09 |
| 公开(公告)号: | CN113435533A | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 刘春静;张磊 | 申请(专利权)人: | 安徽信息工程学院 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 芜湖创启知识产权代理事务所(普通合伙) 34181 | 代理人: | 周锟 |
| 地址: | 241000 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 量化 通用 邻域 数据 分类 方法 系统 | ||
1.一种快速向量化的通用多邻域的数据集分类方法,其特征在于,所述快速向量化的通用多邻域的数据集分类方法包括:
获取待处理的包括类别标识向量Species的数据集;
从类别标识向量Species中提取出所有的唯一类别的且依次进行类别编号的向量矩阵Ynumerical;
获取统计得到的所述类别标识向量Species中各编号的类别总数,针对所述向量矩阵Ynumerical中每一种类别的数据,获取其中预设第一比例值的训练数据和预设第二比例值的测试数据;其中,所述第二比例值等于1与所述第一比例值的差,所述训练数据包括用于训练的特征数据矩阵X和类别标识向量Y,所述测试数据包括用于测试的特征数据矩阵Xnew和类别标识向量Ynew;
确定所述特征数据矩阵Xnew中每一行数据与所述特征数据矩阵X中每一行数据之间的距离,并基于所确定的每一行数据的距离构建出距离矩阵D;其中,所述距离被配置为欧式距离、Manhattan距离或Sorensen距离中的一种;
将所述距离矩阵D的每一行分别进行从小到大的排序得到排序后的距离矩阵和索引矩阵,并基于预设的保留参数、排序后的距离矩阵和索引矩阵确定矩阵distances和矩阵indices;
获取所述矩阵indices在所述类别标识向量Y中的索引号,并基于所述索引号确定类别编号矩阵Ynearest,基于所述类别编号矩阵Ynearest确定每一列数据中相同的类别编号出现的总次数矩阵N;
获取建立的矩阵T,其中所述矩阵T被配置由所设的行向量t的起始值为0、步进值为K、终止值为nK-K、对行向量t连续重复K次所构成;
基于所述矩阵T和所述类别编号矩阵Ynearest确定第一矩阵索引值,基于所述第一矩阵索引值按照列索引的方式从所述总次数矩阵N中取出对应索引的元素值构成矩阵frequencies,确定所述矩阵frequencies每一列中最大值的行索引号作为行向量J;
确定由所述矩阵T和所述行向量J中的各元素构成的第二矩阵索引值,并基于所述第二矩阵索引值按照列索引的方式从所述类别编号矩阵Ynearest中取出相应索引的元素值构成行向量Ypred作为所述数据集的分类结果。
2.根据权利要求1所述的快速向量化的通用多邻域的数据集分类方法,其特征在于,所述基于预设的保留参数、排序后的距离矩阵和索引矩阵确定矩阵distances和矩阵indices包括:
保留所述排序后的距离矩阵和索引矩阵的前保留参数所示出的列数的数据以得到矩阵distances和矩阵indices。
3.根据权利要求1所述的快速向量化的通用多邻域的数据集分类方法,其特征在于,所述基于所述类别编号矩阵Ynearest确定每一列数据中相同的类别编号出现的总次数矩阵N包括:
对所述类别编号矩阵Ynearest中的每一列分别进行直方图统计以确定每一列数据中相同的类别编号出现的总次数矩阵N。
4.根据权利要求1所述的快速向量化的通用多邻域的数据集分类方法,其特征在于,所述获取建立的矩阵T包括:
设行向量t的起始值为0,步进值为K,终止值为(nK-K),对行向量t连续重复K次,构成矩阵T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽信息工程学院,未经安徽信息工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775748.9/1.html,转载请声明来源钻瓜专利网。





