[发明专利]一种Bagging_BSJ短文本分类方法在审
申请号: | 201710554325.8 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107292348A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 赵德新;张德干;常智;杜娜娜 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27 |
代理公司: | 天津耀达律师事务所12223 | 代理人: | 侯力 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 bagging_bsj 文本 分类 方法 | ||
技术领域
本发明属于计算机应用与自然语言处理结合的技术领域。
背景技术
短文本分类技术是指对字数在160字左右,具有稀疏特性的文本进行分类的技术。通常情况下,短文本信息具有实时性强、语言简洁、噪音多等特点。对于稀疏性极强的短文本,使用传统文本分类方法,通过计算文档内词项出现的频率和文档间公共词项的数量来评判文档间相似性,其准确率不高。因此,针对短文本独有的实时性强、语言简洁、噪音多的特点,提高分类算法的准确率,召回率会有重要的应用。
目前,针对短文本比较常用的分类算法可以分为两大类:一类是基于某种规则改进的分类过程;另一类是基于外部语义信息扩充短文本的内容,进而提高短文本的分类效果。
基于规则改进的方法主要是对短文本数据集进行处理,借助于特征提取、文本表示、分类器构建等多个环节提出的创新改进方法。但是,在短文本分类中,由于数据稀疏,基于本地特征的分类器在表达短文本时普遍遇到语义鸿沟的问题,不能有效地区别不同短文本中的语义信息。
基于语义信息扩充短文本的分类算法主要是借助于文本语境信息或外部语义知识库,利用某种规则丰富短文本的表述内容。这种算法从一定程度上减轻了数据稀疏带来的影响,但是当训练数据量增大时,辅助数据带来的提高逐渐减弱,分类效果会下降。针对短文本的特征稀疏性,本发明将维基百科作为外部语义知识库进行了短文本特征的扩展。
维基百科中存在着大量不断的增长的概念,这对于短文本的内容扩充提供了非常有效的平台。语义相似度计算是一种基于维基百科文本和链接结构信息的语义关系量化模型,该模型通过计算备选扩展特征与主题特征之间的语义相似度,选取相似度较高的特征作为扩展特征,上述过程称为语义扩展。
维基扩展短文本特征的主要过程如下:(1)将给定的短文本数据进行预处理后,得到对应的词项向量;(2)将向量中的每一个特征词项(称为主题特征词项)都映射到维基百科所对应的主题页面中,获取主题页面内摘要段的文本信息,并对获得的文本信息进行分词、去噪的预处理,以得到每个主题特征词项的维基扩展特征向量;(3)通过WLA(Wikipedia Links andAbstract)算法进行语义关系量化计算,即定量描述给定词项与其备选扩展词项之间的语义关联程度。由于扩展词表中的备选特征扩展词项与主题词项之间的关联程度不同,则它们对主体特征语义信息补充的能力就不相同。这样就定量描述了给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度;(4)将该短文本所有主题特征扩展词项组合、统计,得到的向量即为该短文本基于维基百科文本信息扩展后的特征向量。
在对短文本数据集进行处理中,经典的文本分类模型有朴素贝叶斯NB(Bayesian),支持向量机SVM(Support Vector Machine)和决策树(J48)算法。朴素贝叶斯NB模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。NB假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NB模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NB模型的分类效率比不上决策树模型。而在属性相关性较小时,NB模型的性能最为良好。支持向量机算法SVM是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。决策树(J48)算法,是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。上述研究所提出的算法存在很多缺陷,对短文本处理效果较差,如短文本进行维基扩展后得到的特征向量,在进行分类时可能导致维数灾难问题。单一分类器不能取得较好的分类效果,如朴素贝叶斯算法的词项独立性差,J48分类算法受奇异数据影响较大。我们采用集成学习的算法解决上述问题。
集成学习算法的基本思路是:在对新的实例信息进行分类的时候,把若干个单独训练的分类器集成起来,将这些单个分类器的分类结果以某种权值相结合,作为最终的集成分类结果。由相关资料表明,集成分类器的性能比单个分类器的分类效果更好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710554325.8/2.html,转载请声明来源钻瓜专利网。