[发明专利]一种文本分类方法及装置在审
| 申请号: | 201510155599.0 | 申请日: | 2015-04-03 |
| 公开(公告)号: | CN104750833A | 公开(公告)日: | 2015-07-01 |
| 发明(设计)人: | 孙镜涛;甄教明 | 申请(专利权)人: | 浪潮集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提供一种文本分类方法及装置,方法包括:将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,学习与各个行业分别相关的专业词汇存入词库,获取待分类的文本;针对待分类的文本中的每一个文本,利用Mahout贝叶斯算法中用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;根据每一个词组的词频反词频统计值,对待分类的文本进行分类操作。根据上述方案,提高了文本分类的准确率。 | ||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
【主权项】:
一种文本分类方法,其特征在于,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还包括:获取待分类的文本;针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510155599.0/,转载请声明来源钻瓜专利网。





