[发明专利]基于组合凸线性感知器的两类文本分类方法有效
申请号: | 201610083975.4 | 申请日: | 2016-02-06 |
公开(公告)号: | CN105760471B | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 李玉鑑;王曼丽 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 线性 感知 文本 分类 方法 | ||
本发明公开了一种基于组合凸线性感知器的两类文本的分类方法。本发明包括:收集文本数据集,将其划分为训练集和测试集;预处理数据集;提取总词表并统计词频;对训练样本集进行特征选取,得到特征向量表;将数据集中的所有样本特征项赋权值表示成向量;将所有数据降维到低维特征空间,得到组合凸线性感知器最终处理的数据;利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别。本发明结合tf*idf特征提取法和PCA降维方法,使用SMA算法进行两类文本分类,这是首次将组合凸线性感知器应用到文本分类领域,非常具有独创意义。
技术领域
本发明属于电子信息技术领域,具体涉及一种组合凸线性感知器在两类文本分类中的应用及评测研究。
背景技术
文本分类是指使用计算机对文本自动的进行类别标记的过程。它属于监督学习的范畴,基本思想如下:给定一个类别信息已知的训练文本集合,通过一定的训练模型训练出这些文本与类别间的一个关系模型,即具有某些特征的文本都会属于同一个类别,然后根据这个训练出来的关系模型对待分类文本进行分类。具体文本分类的过程如附图1所示。其中,训练出一个恰当地文本特征与文本类别间的关系模型对分类效果的影响是至关重要的。目前,已经存在多种较成熟的分类器,比如相似度计算法、朴素贝叶斯、支持向量机等。
分片线性分类器作为一种分类方法,提出时间早于支持向量机。分片线性分类器确定的决策面是由若干个超平面段组成,所以与一般超曲面相比,仍是简单易于实现的,且需要较少的内存消耗。又由于它是由多段超平面组成的,所以它能逼近各种形状的超曲面,具有很强的适应能力。由于上述优点,分片线性分类器已引起广泛关注,许多设计分片线性分类器的方法被提出。如线性规划的方法,决策树方法,甚至经典的最近邻方法也可看作分片线性分类器的特殊形式。然而,目前人们对于分片线性分类器的研究尚未应用到文本分类领域。因此,对于这些分片线性分类器应用于文本分类的效果,有待进一步的评测研究。
本发明题主要研究将分片线性分类器中的组合凸线性感知器模型应用到文本分类领域,说明所构造的组合凸线性感知器在文本分类中的性能。同时,由于是首次将组合凸线性感知器应用到文本分类中进行评测研究。因此,本发明对于组合凸线性感知器在文本分类领域中的应用具有重要意义。最后,本发明也说明了实现组合凸线性感知器的SMA算法虽然能够有效对两类文本进行分类,但是不适用于海量数据和高维空间。
发明内容
本发明提出了将组合凸线性感知器(Multiconlitron,MCLP)应用于两类文本分类的方法,即使用支持组合凸线性感知器算法(Support Multiconlitron Algorithm,SMA)构造组合凸线性感知器,从而判断文本的类别。其中,组合凸线性感知器是指由若干个凸线感知器构成的分类器,凸线性感知器是指由若干个线性函数构成的分类器。显然,本发明使用的SMA算法不同于以往常规的两类分类算法,它的基本目标是找出多组线性判别函数构造的组合凸线器。以下,本发明统一将“凸线性感知器”简称为“凸线器”,将“组合凸线性感知器”简称为“组合凸线器”。
SMA算法的主要目标是找到一个组合凸线器,它包含若干个凸线器,每个凸线器又包含了若干个线性函数。因此,对于数据集X和Y,该组合凸线器的求解过程,即首先通过求Y中单个点距整个X集的最近点对,获得最近点对连线的垂直平分面作为一个线性判断函数,每获得一个线性判断函数,就将X中已正确划分类别的数据去除,形成新的X集,再求Y中单个点距整个新X集的最近点对,获得新的一个线性函数,再次去除X中已正确划分类别的数据,如此迭代,最后X集为空,得到的这些线性函数便构成了第一个凸线器。如果该凸线器未能将Y集划分为空,说明至少存在另一个凸线器,在Y集未正确划分的部分,再选取一个点,继续对原来整个完整的X集作划分,如此迭代,直到最后Y集也为空,获得的若干个凸线器,即最终的组合凸线器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610083975.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:视频检索方法及系统
- 下一篇:一种图片处理方法及电子设备