[发明专利]一种文本分类方法和装置有效
申请号: | 201410746286.8 | 申请日: | 2014-12-08 |
公开(公告)号: | CN104391981B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 高玉龙;温跃宇;傅志华;李伟光;王琦;陈龙;宋明;刘荣;崔腾飞;田爽;刘丹;周佩佩 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 贾媛媛;张思悦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本分类方法和装置。所述方法包括:建立第一特征文本库S和第二特征文本库H;计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W);当待分类的文本中包含所述词语W时,基于所述概率P(S|W)和所述概率P(H|W),计算所述文本属于所述第一特征文本库S的概率P;以及基于所述概率P,将所述待分类的文本分类。 | ||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
【主权项】:
1.一种文本分类方法,包括:建立第一特征文本库S和第二特征文本库H;计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W);当待分类的文本中包含所述词语W时,基于所述概率P(S|W)和所述概率P(H|W),计算所述文本属于所述第一特征文本库S的概率P;以及基于所述概率P,将所述待分类的文本分类;所述基于所述概率P(S|W)和所述概率P(H|W),计算所述文本属于所述第一特征文本库S的概率P,计算公式包括:
其中,P(S)为所述文本属于所述第一特征文本库S的先验概率,P(H)为所述文本属于所述第二特征文本库H的先验概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410746286.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车快速定损方法
- 下一篇:网页关键词出现频次检测方法及装置