[发明专利]一种文本分类方法及装置有效
申请号: | 201611053131.1 | 申请日: | 2016-11-24 |
公开(公告)号: | CN108108371B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 葛婷 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵秀芹;王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
本发明公开了一种文本分类方法和装置,该方法包括:获取待分类文本;将所述待分类文本分为训练文本和测试文本;根据文本特征和文本分类的预设需求,从训练文本中提取特征;利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。该强文本分类器中的多个单核SVM分类器可以适合不同特征的分类,该多个单核SVM分类器的分类效果相互补充,从而使得利用本发明提供的强文本分类器进行文本分类能够达到高效、便捷、准确的分类效果。
技术领域
本发明涉及文本文类技术领域,尤其涉及一种文本分类方法及装置。
背景技术
互联网迅速发展的同时,文本信息的数据资源也呈现了指数级的增长速度。面对迅速增长的文本信息,自动化的分析成了迫切的需求之一。而文本文档是非结构化的,要对其进行分析,文本分类就成为了文本分析中的一个不可或缺的环节,受到了越来越多的重视。
如何采用高效便捷的方法进行分类,以提高分类准确率,并且在算法复杂性、学习能力、以及准确率之间,寻找最佳的方式,以保证准确率的同时,还要保证较好的泛化能力。这是文本分类中面临的一个重大问题,对于文本分类、文本分析都有着重要的意义。
发明内容
鉴于上述问题,提出了本发明提供了一种高效便捷的文本分类方法及装置。
一种文本分类方法,包括:
获取待分类文本;
将所述待分类文本分为训练文本和测试文本;
根据文本特征和预设需求,从训练文本中提取特征;
利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;
将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
可选地,所述根据文本特征和文本分类的预设需求,从训练文本中提取特征,具体包括:
根据预设需求将训练文本分为多个文本特征组;
提取每个文本特征组中的特定特征。
可选地,所述特定特征具体包括:文本特征组的特征最大值、文本特征组的特征平均值和/或基于特征值权重的方法提取的特征。
可选地,所述利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将其集成为一个强文本分类器,具体包括:
设置最大迭代次数N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
利用设置有权重的特征训练多种单核SVM分类器;
根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器;
如果是,生成分类准确度最高的单核SVM分类器占最终生成的强文本分类器的权重;将分类准确度最高的单核SVM分类器及其对应的权重加入到准强文本分类器;更新当前迭代次数n,n=n+1;判断当前迭代次数是否达到最大迭代次数N,如果是,将所述准强文本分类器合成为最终的强文本分类器;如果否,增大分类错误的特征的权重,返回执行所述利用设置有权重的特征训练多种单核SVM分类器。
可选地,所述根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器,还包括:
如果否,增大分类错误的特征的权重,返回利用设置有权重的特征训练多种单核SVM分类器。
可选地,所述生成分类准确度最高的单核SVM分类器权重,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611053131.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索结果展示方法和装置
- 下一篇:一种数据冲突自动校正处理方法及装置