[发明专利]对文档进行分类的方法及装置无效
申请号: | 200910081157.0 | 申请日: | 2009-04-03 |
公开(公告)号: | CN101853250A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 薛贵荣;刘存伟;黄西华;万嘉;陆元飞 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种对文档进行分类的方法及装置。该方法主要包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果。然后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算,根据所述相似度计算的结果对所述待分类文档进行分类。本发明实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模的训练语料数据的环节。 | ||
搜索关键词: | 文档 进行 分类 方法 装置 | ||
【主权项】:
一种对文档进行分类的方法,其特征在于,包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910081157.0/,转载请声明来源钻瓜专利网。
- 上一篇:依据使用者数据调整使用者界面的系统、装置及其方法
- 下一篇:扩展适配卡