[发明专利]一种优化训练样本集的KNN文本分类方法有效
| 申请号: | 201410305607.0 | 申请日: | 2014-06-30 |
| 公开(公告)号: | CN104063472B | 公开(公告)日: | 2017-02-15 |
| 发明(设计)人: | 屈鸿;谌语;绍领;解修蕊;黄利伟 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/02 |
| 代理公司: | 成都华风专利事务所(普通合伙)51223 | 代理人: | 徐丰 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 优化 训练 样本 knn 文本 分类 方法 | ||
1.一种优化训练样本集的KNN文本分类方法,其特征在于,如下步骤:
(1)对训练用文本数据和待分类文本数据进行文本预处理;
(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示;
(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取;
(4)对提取的训练用文本数据特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;
(5)将文本分类器作用于特征提取后的待分类文本数据,得到待分类文本数据的分类结果。
2.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法,其特征在于,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重,计算公式为:
其中,tfij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)dj中出现的频率数目,N是文档(训练用文本数据或待分类文本数据)的总数目,Ni是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,tfkj表示的是第k个文本特征词在文本dj中出现的频率数目;
(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di)),
其中,n表示文本特征提取所用的文本特征词数目,wj(di)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)di中的权值,j为1到n的任意值;
(23)计算训练用文本数据特征的平均互信息值MIavg(w),计算公式为:
其中,P(w∧ci)表示训练样本集中既属于特征词w又属于类别ci的概率,P(w)表示包含特征词w在训练用文本数据中出现的概率,P(ci)表示训练用文本数据中属于类别ci的文本数据的概率,MI(w,ci)表示单个类别下的互信息值,MIavg(w)为平均互信息值;
(24)将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表示的最后一维度,具体表示为,
v(di)=(w1(di),w2(di),...,wn(di),MIn+1(di))
,
其中,n表示文本特征提取所用的特征词数目,wj(di)表示第j个文本特征词在文档di中的权值,MIn+1(di)表示特征的平均互信息值,j为1到n的任意值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410305607.0/1.html,转载请声明来源钻瓜专利网。





