[发明专利]一种文本分类方法在审
申请号: | 201810238364.1 | 申请日: | 2018-03-22 |
公开(公告)号: | CN108509552A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 韦灵;倪志平;黎伟强;崔亚楠;胡艳华 | 申请(专利权)人: | 广西科技大学鹿山学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京君恒知识产权代理事务所(普通合伙) 11466 | 代理人: | 谭月萍;黄启行 |
地址: | 545616 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本 指标集 权重 预处理 矩阵 归一化处理 分类矩阵 分类模型 分类指标 筛选指标 提取特征 指标矩阵 特征词 分类 分词 归类 去除 筛选 更新 | ||
1.一种文本分类方法,其特征在于:包括如下步骤,
步骤1:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库;
步骤2:对指标库进行归一化处理得到文本分类指标矩阵;
步骤3:选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词;
步骤4:计算特征词的权重值;
步骤5:根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理,完成文本分类。
2.根据权利要求1所述的一种文本分类方法,其特征在于,所述步骤1中的筛选文本的指标集的具体过程为:
步骤1.1:文件库为已经分类号的文本类型的文件库,从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选;
步骤1.2:步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字;
步骤1.3:对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。
3.根据权利要求2所述的一种文本分类方法,其特征在于,所述步骤1中划分为不同的指标库的具体过程为:
步骤1.4:对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分;
步骤1.5:同时划分算出每个指标集在文本类型中的权重值。
4.根据权利要求3所述的一种文本分类方法,其特征在于,所述步骤2中归一化处理的具体过程为:
设m个待测数据,n指权重值,得到矩阵(aij)m×n,其中aij为第i个指标所对应的第j个因素的评价值,将其归一化之后得到矩阵(aij)m×n’。
5.根据权利要求4所述的一种文本分类方法,其特征在于,所述步骤骤4中的具体过程为:
首先,计算第j个状态下的第i个因素占其指标的比重值:
其中,j=1,2…n,i为因素个数,j为状态个数;
其次,计算第j个指标的信息熵:
其中,k=1,j=1,2…n,
然后,计算第j个指标的熵权;
其中,i代表每个因素,j代表每个因素所对应的状态,n为总的状态数;
最后,将均衡函数引入变权公式得到指标的变权重数值,式(4)为均衡函数,将其引入变权公式后变权重表达式为式(5);
其中,m代表各个因素,i为正整数,α为平衡因子,取1/2,
xm为变元;
其中,w′i为第i指标的变权重系数;m为指标所对应的二层指标个数;xi为第i个指标标准化之后的值;wi为第i个综合状态量的常权重系数。
6.根据权利要求5所述的一种文本分类方法,其特征在于,还包括步骤5中完成分类后,认为进行对已分类的文本进行认为判断,把人为分类判断与机器分类进行对比同时统计机器分类准确率,当分类少于1000篇或者准确率低于96%时,人为对文本分类后把该文档执行步骤1,进行更新步骤1的指标库;当当分类大于1000篇或者准确率不低于96%时,人为分类判断停止,步骤5中执行的分类结果则为最终的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西科技大学鹿山学院,未经广西科技大学鹿山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810238364.1/1.html,转载请声明来源钻瓜专利网。