[发明专利]一种文本分类的方法及装置有效
| 申请号: | 201110273033.X | 申请日: | 2011-09-15 |
| 公开(公告)号: | CN102999516A | 公开(公告)日: | 2013-03-27 |
| 发明(设计)人: | 杨振东;吴华;王海峰;柴春光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
【技术领域】
本发明涉及文本数据挖掘技术,特别涉及一种文本分类的方法及装置。
【背景技术】
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练,可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行。这种方式下,首先,获取大量标注的训练语料存在困难,如果采用大规模手工标注,则效率低下,其次,由于训练语料有可能存在类别偏见(例如有的标记为新闻的语料,可能更适合标记为娱乐),会导致分类器也带有类别偏见,因此最终会导致分类精度的降低。另外,现有技术也有用聚类的方法将文本分为若干类别的,但是由于在聚类时对聚出的各个类别无法控制,所以如果只采用聚类的方法将文本分为若干类别,可能存在无法得到真正需要的类的情况。
【发明内容】
本发明所要解决的技术问题是提供一种文本分类的方法及装置,以提高文本分类的精度。
本发明为解决技术问题而采用的技术方案是提供一种文本分类的方法,包括:A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;B.将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;C.利用所述第一文本子集获得第一分类器,使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果;以及,以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果;判断预设条件是否满足,如果是,则输出所述第一文本集的当前分类结果,否则,返回所述步骤B。
根据本发明之一优选实施例,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
根据本发明之一优选实施例,从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
根据本发明之一优选实施例,利用所述第一文本子集获得第一分类器的步骤包括:使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,利用所述第一文本子集获得第一分类器的步骤包括:C1.使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;C2.将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;C3.使用所述第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,所述预置分类结果在所述步骤C2首次执行时,是获取所述第二文本集时,所述第二文本集的初始分类结果;所述预置分类结果在所述步骤C2循环执行时,是所述第二文本集上一次的分类结果。
根据本发明之一优选实施例,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
根据本发明之一优选实施例,获取所述第一文本集的初始分类结果的步骤包括:使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
根据本发明之一优选实施例,获取所述第一文本集的初始分类结果的步骤包括:使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110273033.X/2.html,转载请声明来源钻瓜专利网。





