[发明专利]一种优化训练样本集的KNN文本分类方法有效

申请号：	201410305607.0	申请日：	2014-06-30
公开（公告）号：	CN104063472B	公开（公告）日：	2017-02-15
发明（设计）人：	屈鸿;谌语;绍领;解修蕊;黄利伟	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/02
代理公司：	成都华风专利事务所(普通合伙)51223	代理人：	徐丰
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种优化训练样本 knn 文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种优化训练样本集的KNN文本分类方法，其特征在于，如下步骤：

(1)对训练用文本数据和待分类文本数据进行文本预处理；

(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示；

(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取；

(4)对提取的训练用文本数据特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；

(5)将文本分类器作用于特征提取后的待分类文本数据，得到待分类文本数据的分类结果。

2.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法，其特征在于，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重，计算公式为：

wi(dj)=tfij×log2(NNi+0.01)Σk=1n(tfkj)2*[log2(NNk+0.01)]2,]]>

其中，tf_ij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)d_j中出现的频率数目，N是文档(训练用文本数据或待分类文本数据)的总数目，N_i是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目，n为文本特征抽取时所选用的文本特征词数目，k为求和公式起点到终点的取值，从1开始计算到n，tf_kj表示的是第k个文本特征词在文本d_j中出现的频率数目；

(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量，具体表示为，

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i))，

其中，n表示文本特征提取所用的文本特征词数目,w_j(d_i)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)d_i中的权值，j为1到n的任意值；

(23)计算训练用文本数据特征的平均互信息值MI_avg(w)，计算公式为：

MIavg(w)=Σi=1mP(ci)MI(w,ci),]]>