[发明专利]一种快速分类模型构建方法在审
申请号: | 201911037562.2 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110837853A | 公开(公告)日: | 2020-02-25 |
发明(设计)人: | 甘涛;王志阳;何艳敏;罗瑜 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/901;G06F16/906 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 快速 分类 模型 构建 方法 | ||
本发明公开了一种快速分类模型构建方法,采用局部敏感哈希方法将训练样本映射为位数适中的哈希值,进而筛选出可能的边界样本点并对其进行训练,显著地减少了训练样本数目,降低了计算复杂度,提高了模型构建的速度;按样本点为边界点的可能性高低,迭代地筛选出潜在的边界点,在提高速度的同时保证了模型分类的准确性。
技术领域
本发明属于模式识别技术领域,涉及一种快速分类模型构建方法。
背景技术
分类问题是通过对已有的数据进行训练分析,得到一个分类模型,再利用这个模型对未知的数据进行类别预测。例如根据人口普查中得到的个人年龄、教育程度、婚姻状况、职业、收入等数据建立个人收入档次分类模型,基于这个模型,可根据个人的非收入的相关数据来预测其收入的高低档次。在分类问题中分类模型的设计和构建是核心,是计算机模式识别领域中的研究重点。
经典的分类模型主要有K最近邻(k-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、神经网络等。KNN依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,具有概念简单、实现容易的优点。该模型的计算量主要集中在计算每一个待分类样本到全体已知样本的距离;SVM是分类模型中最具健壮性和准确性的模型之一,它旨在寻找将不同样本分开的间隔最大的超平面,在人脸识别、机器故障检测、时间序列预测、生物工程等领域都有着广泛的应用。但由于SVM是借助二次规划来求解问题,求解二次规划涉及高阶矩阵的运算,导致在数据量较大时,模型构建时间较长;相比之下,作为当前热门的神经网络模型具有更优的分类性能,但也仍普遍存在模型构建中收敛速度慢、计算量大、构建时间长等问题;综上所述,经典分类模型均面临着计算复杂度高的问题,而且这个问题随着大数据时代数据体量和维数的不断增长而变得越发突出。
减少计算复杂度的方法通常有降低维度和减少样本数这两类。在降低维度方面,常用手段有主成分分析、线性判别式分析等,即先对数据进行降维,用降维后的数据进行训练。这类方法的缺点是降维后数据特征可能发生变化,导致模型分类准确性下降。在减少样本数方面,通常通过样本聚类,寻求聚类的代表样本点,仅用代表样本点进行训练,从而提高了模型构建速度。但聚类计算需要大量的时间开销,而且由于代表样本点不一定能替代原始数据的分布,从而容易造成分类准确性的下降。总之,针对大规模数据集,需要研究能保证分类准确性且处理速度快的模型构建方法。
发明内容
针对现有技术中的上述不足,本发明提供的一种快速分类模型构建方法在保证分类准确性的情况下对大规模数据集具有训练速度快和计算复杂度低的特点。
为了达到上述发明目的,本发明采用的技术方案为:一种快速分类模型构建方法,包括以下步骤:
S1、局部敏感哈希映射:
S11、设训练样本的总数为N,样本中包括正类样本点和负类样本点;
S12、采用标准局部敏感哈希方法将每一个训练样本点映射为一个位数为K的哈希值,映射完成后共得到H个不同的哈希值,视每个不同的哈希值为一个哈希桶,则得到H个哈希桶;
S2、统计样本点数:
S21、统计每一个哈希桶中的正类样本点个数和负类样本点个数其中i为哈希桶编号,1≤i≤H;
S22、比较每一个哈希桶中的正类样本点个数和负类样本点个数的数值大小,得到两者较小值其中,是取和两者中的较小者;
S3、初始化:
S31、定义支持向量集S、边界样本集B和精简训练样本集T,并将支持向量集S、边界样本集B和精简训练样本集T初始化为空;
S32、定义迭代计数器n,并设置迭代计数器n的初始值为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911037562.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抽油机地面示功图全复现方法及系统
- 下一篇:地下电缆数据处理方法和装置