[发明专利]一种文本分类的方法及装置有效
| 申请号: | 201110273033.X | 申请日: | 2011-09-15 |
| 公开(公告)号: | CN102999516A | 公开(公告)日: | 2013-03-27 |
| 发明(设计)人: | 杨振东;吴华;王海峰;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供了一种文本分类的方法及装置,其中文本分类的方法包括:A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取第一文本集的初始分类结果作为当前分类结果;B.利用当前聚类结果和当前分类结果得到第一文本子集;C.利用第一文本子集得到的第一分类器对第一文本集进行分类,得到当前分类结果;以及,以第一文本子集为聚类中心对第一文本集进行聚类,得到当前聚类结果;判断预设条件是否满足,如果是,则输出第一文本集的当前分类结果,否则,返回步骤B。通过上述方式,提高了文本分类的精度。 | ||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
【主权项】:
一种文本分类的方法,其特征在于,所述方法包括:A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;B.将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;C.利用所述第一文本子集获得第一分类器,使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果;以及,以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果;判断预设条件是否满足,如果是,则输出所述第一文本集的当前分类结果,否则,返回所述步骤B。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110273033.X/,转载请声明来源钻瓜专利网。





