[发明专利]一种短文本分类方法有效
申请号: | 201710686945.7 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107368611B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 康琦;张量 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 叶栋 |
地址: | 201804 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短文本分类 超平面 权重 欠采样 子域 样本 多类样本 文本分类 稀疏性 有效地 采样 高维 分割 分类 赋予 | ||
本发明涉及一种短文本分类方法,该短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
技术领域
本发明涉及一种短文本分类方法,属于机器学习和数据挖掘领域。
背景技术
近年来,大数据与人工智能技术迅猛发展,语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。文本分类(Text Categorization)是机器学习和数据挖掘领域中最为典型的问题,拥有了众多分类算法,如朴素贝叶斯算法K近邻算法(K-NN),神经网络算法和支持向量机(Support VectorMachine,SVM)等。SVM是一种基于统计学习理论的具有较强泛化能力的代表性分类方法,其以结构风险最小化为目标,通过核函数的引入来克服维数灾难的问题,成为文本分类问题的经典候选方法。然而,现实应用场景中,文本数据集存在明显的类分布不平衡问题,特别是短文本天然的高维度稀疏特性,对现有分类算法带来了挑战。
基于上述原因,有必要提供一种能够处理文本分类中的高维度稀疏性和类别不平衡的算法。
发明内容
本发明的目的在于提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题。
为达到上述目的,本发明提供如下技术方案:一种短文本分类方法,包括以下步骤:
S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法为所述训练数据集中的每个样本分配所述子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;
S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型。
进一步地:步骤S1具体步骤如下:
S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};
S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m;
S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;
S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
进一步地:步骤S14具体为:通过公式a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710686945.7/2.html,转载请声明来源钻瓜专利网。