[发明专利]一种文本分类方法及装置有效
| 申请号: | 201611053131.1 | 申请日: | 2016-11-24 |
| 公开(公告)号: | CN108108371B | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | 葛婷 | 申请(专利权)人: | 北京国双科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵秀芹;王宝筠 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
1.一种文本分类方法,其特征在于,包括:
获取待分类文本;所述待分类文本包括多种文本特征,各文本特征涉及的文本数据的数据量均超过预设数据阈值;
将所述待分类文本分为训练文本和测试文本;
根据文本特征和预设需求,从训练文本中提取特征,以使所述从训练文本中提取到的特征的维度少于所述训练文本的文本特征的维度;所述根据文本特征和文本分类的预设需求,从训练文本中提取特征,具体包括:根据预设需求将训练文本分为多个文本特征组;提取每个文本特征组中的特定特征,所述特定特征具体包括:文本特征组的特征最大值、文本特征组的特征平均值和/或基于特征值权重的方法提取的特征;
在从一个文本特征组提取到多维特定特征之后,利用从所述一个文本特征组提取到的多维特定特征训练多个单核 SVM 分类器,基于 boosting 方法将所述多个单核 SVM 分类器集成为一个强文本分类器;
将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
2.根据权利要求 1 所述的文本分类方法,其特征在于,所述利用从训练文本中提取到的特征训练多个单核 SVM 分类器,基于 boosting 方法将其集成为一个强文本分类器,具体包括:
设置最大迭代次数 N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
利用设置有权重的特征训练多种单核 SVM 分类器;
根据训练后的分类结果,判断所述多种单核 SVM 分类器中是否存在分类准确度大于预设阈值的分类器;
如果是,生成分类准确度最高的单核 SVM 分类器占最终生成的强文本分类器的权重;将分类准确度最高的单核 SVM 分类器及其对应的权重加入到准强文本分类器;更新当前迭代次数 n,n=n+1;判断当前迭代次数是否达到最大迭代次数 N,如果是,将所述准强文本分类器合成为最终的强文本分类器;如果否,增大分类错误的特征的权重,返回执行所述利用设置有权重的特征训练多种单核 SVM 分类器。
3.根据权利要求 2 所述的文本分类方法,所述根据训练后的分类结果,判断所述多种单核 SVM 分类器中是否存在分类准确度大于预设阈值的分类器,还包括:
如果否,增大分类错误的特征的权重,返回利用设置有权重的特征训练多种单核 SVM分类器。
4.根据权利要求 2 所述的文本分类方法,其特征在于,所述生成分类准确度最高的单核 SVM 分类器权重,具体包括:
根据分类准确率自动生成分类准确度最高的单核 SVM 分类器权重。
5.一种文本分类装置,其特征在于,包括:
获取单元,用于获取待分类文本;所述待分类文本包括多种文本特征,各文本特征涉及的文本数据的数据量均超过预设数据阈值;
划分单元,用于将所述待分类文本分为训练文本和测试文本;
提取单元,用于根据文本特征和预设需求,从训练文本中提取特征,
以使所述从训练文本中提取到的特征的维度少于所述训练文本的文本特征的维度;
所述提取单元,具体包括:
分组子单元,用于根据预设需求将训练文本分为多个文本特征组;
提取子单元,用于提取每个文本特征组中特定特征;
训练单元,用于在从一个文本特征组提取到多维特定特征之后,利用从所述一个文本特征组提取到的多维特征训练多个单核 SVM 分类器,基于boosting 方法将所述多个单核SVM 分类器集成为一个强文本分类器;
分类单元,用于将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611053131.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索结果展示方法和装置
- 下一篇:一种数据冲突自动校正处理方法及装置





