[发明专利]一种优化训练样本集的KNN文本分类方法有效
申请号: | 201410305607.0 | 申请日: | 2014-06-30 |
公开(公告)号: | CN104063472B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 屈鸿;谌语;绍领;解修蕊;黄利伟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/02 |
代理公司: | 成都华风专利事务所(普通合伙)51223 | 代理人: | 徐丰 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 优化 训练 样本 knn 文本 分类 方法 | ||
技术领域
一种优化训练样本集的KNN文本分类方法,基于裁剪优化训练集的K最近邻结点算法对文本进行分类,属于文本挖掘,自然语言处理等领域。
背景技术
随着互联网络上大量信息不断的涌现出来,给信息的查询以及检索带来了很大的不便,而人们对获得信息的快捷性以及信息的简洁性的需求与日俱增。面对这个问题,文本分类技术就被提出了出来。它能够对海量信息进行有序整理组织,能够在隐藏的、未知的大量文本信息中帮助用户发现有用的、潜在的知识。
文本分类技术的出现立即获得了人们广泛的关注,同时也成为了研究的热点。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。分类非常费时,效率过低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类。
爆炸式增长的文本信息给文本分类的精度与速度提出了新的标准和挑战。随着分类技术在各个领域的广泛应用,毫无疑问,对文本分类技术研究的重要意义越来越明确的显现。
国外对于文本自动分类的研究开展较早,20世纪50年代末,H.P.Luhn对文本自动分类进行了开创性的研究,将词频统计思想应用于文本自动分类。1960年,Maro发表了关于自动分类的第一篇论文,随后,K.Spark、G.Salton、R.M.Needham、M.E.Lesk以及K.S.Jones等学者在这一领域进行了很成功的研究,到目前为止,国外基本经历了以下四个文本分类的主要阶段,分别为:
第一阶段(1958-1964):针对文本自动分类的可行性研究;
第二阶段(1965-1974):文本自动分类的实验阶段;
第三阶段(1975-1998):文本自动分类的实际应用阶段;
第四阶段(1990至今):因特网文本自动分类研究阶段。
目前比较主要的文本分类方法有以下三个类别:基于规则的文本分类方法,基于统计的文本分类方法,以及基于连接的文本分类方法。
常见的基于规则的分类方法有决策树、关联规则等;基于统计的分类方法有朴素贝叶斯、KNN方法等;基于连接的分类方法有神经网络等。
对于每一个文档与其类别的二元组<di,ci>∈D×C,判断其结果,如果结果为1,这表示文档di属于类别ci;如果结果为0,则表示文档di不属于类别ci。其中,di代指文档集合D中的一个文档,C={c1,c2,...,cn}是预先定义好的类别集合。文本分类的目的就是找出将文本进行分类的函数Φ:D×C→{1,0},这个函数就是文本分类器。
在文本分类的特征提取阶段,传统的互信息MI特征提取方法虽然有着对类别和特征之间的连接性能够增强的特点,但是对低频词的处理效果并不好,在处理单个特征的时候容易陷入局部最优。
在文本分类的分类阶段,传统KNN分类算法的基本思想是:先计算待分类样本与已知类别的训练样本之间的距离或相似度,找到距离或相似度与待分类样本数据最近的K个邻居;再根据这些邻居所属的类别来判断待分类样本数据的类别。如果待分类样本数据的K个邻居都属于一个类别,那么待分类样本也属于这个类别。
KNN是空间向量模型中最好的算法之一,KNN算法最大的优点在于简单,不需要训练学习,但是KNN一种惰性的分类方法,只有需要分类时才建立分类器,需要将样本集中的每个样本都要遍历一次,计算量大(比如要建立一个文本分类器,若有上万个类别,即使每个类别只有30个训练样本数据,要判断出一个新的待分类样本的类别,也需要至少做30万次的比较),并且KNN易受样本空间密度的影响,分类效率较低。
发明内容
本发明针对现有技术的不足之处提供一种优化训练样本集的KNN文本分类方法,解决传统KNN文本分类方法的效率和准确率低的问题,并且在特征提取步骤将互信息值引入到遗传算法之中,能够结合两种提取方法的优点,使得特征提取结果更为可靠,使整个文本分类能够更好的应用于文本信息挖掘系统。
为了解决上述技术问题,本发明采用如下技术方案:
一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:
(1)对训练用文本数据和待分类文本数据进行文本预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410305607.0/2.html,转载请声明来源钻瓜专利网。