[发明专利]一种短文本分类方法有效

申请号：	201710686945.7	申请日：	2017-08-11
公开（公告）号：	CN107368611B	公开（公告）日：	2018-06-26
发明（设计）人：	康琦;张量	申请（专利权）人：	同济大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	苏州谨和知识产权代理事务所(特殊普通合伙) 32295	代理人：	叶栋
地址：	201804 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	短文本分类超平面权重欠采样子域样本多类样本文本分类稀疏性有效地采样高维分割分类赋予
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种短文本分类方法，该短文本分类方法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，每个子域区间被赋予不同的权重，与超平面距离越远的子域，权重越小，在欠采样阶段，根据权重对数据进行欠采样，此时，得到的采样后样本再导入SVM算法中进行分类。故，该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。

技术领域

本发明涉及一种短文本分类方法，属于机器学习和数据挖掘领域。

背景技术

近年来，大数据与人工智能技术迅猛发展，语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。文本分类(Text Categorization)是机器学习和数据挖掘领域中最为典型的问题，拥有了众多分类算法，如朴素贝叶斯算法K近邻算法(K-NN)，神经网络算法和支持向量机(Support VectorMachine,SVM)等。SVM是一种基于统计学习理论的具有较强泛化能力的代表性分类方法，其以结构风险最小化为目标，通过核函数的引入来克服维数灾难的问题，成为文本分类问题的经典候选方法。然而，现实应用场景中，文本数据集存在明显的类分布不平衡问题，特别是短文本天然的高维度稀疏特性，对现有分类算法带来了挑战。

基于上述原因，有必要提供一种能够处理文本分类中的高维度稀疏性和类别不平衡的算法。

发明内容

本发明的目的在于提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题。

为达到上述目的，本发明提供如下技术方案：一种短文本分类方法，包括以下步骤：

S1、设置子域的数目，并初始化训练数据集，使用组合类降维算法为所述训练数据集中的每个样本分配所述子域，并对每个所述子域赋予权重，然后根据所述权重得到排序后的样本向量，再根据所述样本向量进行欠采样，得到重采样数据集；

S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练，得到最优分类器参数，输出分类模型。

进一步地：步骤S1具体步骤如下：

S11、设置m个子域，m≥2，并初始化训练数据集X:{x₁,x₂,…,x_n}；

S12、得到分割所述训练数据集X:{x₁,x₂,…,x_n}中两类样本的超平面w^Tx+b＝0，计算每个所述样本到所述超平面w^Tx+b＝0的几何间距d_j，j∈(1,n)；

S13、取所述几何间距d_j的最大值d_M和最小值d_m，并取每个所述子域的长为：γ＝(d_M-d_m)/m；

S14、根据所述几何间距d_j、几何间距的最小值d_m以及子域的长γ，确定每个所述样本所在的子域，并赋予每个所述子域相应的权重；

S15、根据每个所述权重将所述子域排序并得到排序后的样本向量，再根据每个所述权重和样本向量进行欠采样，得到重采样数据集X’:{x₁’,x₂’,…,x_n’}。