[发明专利]一种文本分类的方法及装置有效
| 申请号: | 201110273033.X | 申请日: | 2011-09-15 |
| 公开(公告)号: | CN102999516A | 公开(公告)日: | 2013-03-27 |
| 发明(设计)人: | 杨振东;吴华;王海峰;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
1.一种文本分类的方法,其特征在于,所述方法包括:
A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;
B.将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;
C.利用所述第一文本子集获得第一分类器,使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果;以及,以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果;判断预设条件是否满足,如果是,则输出所述第一文本集的当前分类结果,否则,返回所述步骤B。
2.根据权利要求1所述的方法,其特征在于,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
3.根据权利要求1所述的方法,其特征在于,从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
4.根据权利要求1所述的方法,其特征在于,利用所述第一文本子集获得第一分类器的步骤包括:使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
5.根据权利要求1所述的方法,其特征在于,利用所述第一文本子集获得第一分类器的步骤包括:
C1.使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;
C2.将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;
C3.使用所述第二文本子集对进行分类器训练,将训练后得到的分类器作为第一分类器。
6.根据权利5所述的方法,其特征在于,
所述预置分类结果在所述步骤C2首次执行时,是获取所述第二文本集时,所述第二文本集的初始分类结果;
所述预置分类结果在所述步骤C2循环执行时,是所述第二文本集上一次的分类结果。
7.根据权利要求5所述的方法,其特征在于,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
8.根据权利要求6或7所述的方法,其特征在于,获取所述第一文本集的初始分类结果的步骤包括:使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
9.根据权利要求6或7所述的方法,其特征在于,获取所述第一文本集的初始分类结果的步骤包括:使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
10.根据权利要求5至9中任一权项所述的方法,其特征在于,所述方法在满足所述预设条件时,进一步输出所述第二文本集的当前分类结果。
11.根据权利要求10所述的方法,其特征在于,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果及所述第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110273033.X/1.html,转载请声明来源钻瓜专利网。





