[发明专利]一种文本分类方法在审
申请号: | 201810238364.1 | 申请日: | 2018-03-22 |
公开(公告)号: | CN108509552A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 韦灵;倪志平;黎伟强;崔亚楠;胡艳华 | 申请(专利权)人: | 广西科技大学鹿山学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京君恒知识产权代理事务所(普通合伙) 11466 | 代理人: | 谭月萍;黄启行 |
地址: | 545616 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本 指标集 权重 预处理 矩阵 归一化处理 分类矩阵 分类模型 分类指标 筛选指标 提取特征 指标矩阵 特征词 分类 分词 归类 去除 筛选 更新 | ||
本发明提供了一种文本分类方法,属于文本分类领域,具体包括如下步骤:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库。对指标库进行归一化处理得到文本分类指标矩阵。选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词。计算特征词的权重值;根据权重值选取本分类指标矩阵对词和字进行文本分类处理,完成文本分类。本发明通过根据现有已经分类的文本进行筛选指标集,并根据指标集进行划分指标库,同时计算指标库的在不同文本中权重值,再进行列出分类矩阵,从而使得分类模型更加准确更加好,同时在前期通过人为的判断进行更新指标库。
技术领域
本发明涉及文本分类领域,特别地,涉及一种文本分类方法。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。在文本分类的过程中,关键词的权重起到决定性的作用,它能快速反映一篇文档主题内容或与文档所在领域高度相关的词语,帮助人们在搜寻所需的信息时能够迅速地定位到相应的文档。目前获取关键词或特征词的方式有4种:(1)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
基于此,现提供一种基于改进的TFIDF算法的文本分类的方法,该方法结合文本分类的实际情况,结合传统的特征词权重的计算方法,分析了传统TF-IDF算法在特征词权重计算上的不足,即传统的TFIDF算没有考虑特征词在类内和内间的分布,导致一些区分度不强的特征词赋予了较大的权重。针对传统的TFIDF算法的不足,结合特征词权重对文本分类的实际影响,本发明对传统TFIDF算法公式进行了修改,剔除干扰特征性在内间的影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。
发明内容
为了解决背景技术中存在的不足,本发明目的在于提供一种文本分类方法,通过该方法使得分类的文本更加准确,具有进步性的分类处理能力,同时满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。
为解决上述问题,本发明采用如下技术方案:
一种文本分类方法,包括如下步骤,
步骤1:从文件库选取若干篇文章筛选出文本的指标集,并将指标集进行归类划分为不同的指标库;
步骤2:对指标库进行归一化处理得到文本分类指标矩阵;
步骤3:选取需分类的文本,对文本进行预处理,提取特征词,对文本进行分词和分字处理,去除中性词;
步骤4:计算特征词的权重值;
步骤5:根据权重值选取步骤2中的本分类指标矩阵对词和字进行文本分类处理,完成文本分类。
所述步骤1中的筛选文本的指标集的具体过程为:
步骤1.1:文件库为已经分类号的文本类型的文件库,从文件库选取不同文本类型的5000篇-10000篇的文本进行筛选;
步骤1.2:步骤1.1筛选的过程为从每个文本提取与该文本的分类相关的词或字;
步骤1.3:对每个类型的文本筛选出的词或字进行汇总得到文本的指标集。
所述步骤1中划分为不同的指标库的具体过程为:
步骤1.4:对每个文本类型的文本指标集进行根据词或字在该类文本中的权重值进行划分;
步骤1.5:同时划分算出每个指标集在文本类型中的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西科技大学鹿山学院,未经广西科技大学鹿山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810238364.1/2.html,转载请声明来源钻瓜专利网。