[发明专利]一种文本分类方法及装置在审
| 申请号: | 201510155599.0 | 申请日: | 2015-04-03 |
| 公开(公告)号: | CN104750833A | 公开(公告)日: | 2015-07-01 |
| 发明(设计)人: | 孙镜涛;甄教明 | 申请(专利权)人: | 浪潮集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 方法 装置 | ||
1.一种文本分类方法,其特征在于,将用于实现文本词组分词的分词算法对Mahout贝叶斯算法中的分词算法进行替换,以使Mahout贝叶斯算法实现文本词组的分词,学习与各个行业分别相关的专业词汇,并将与每个行业相关的专业词汇分别存入相应的词库中,还包括:
获取待分类的文本;
针对所述待分类的文本中的每一个文本,利用Mahout贝叶斯算法中所述用于实现文本词组分词的分词算法遍历文本中的每句文字,并将遍历到的每句文字分别与每个词库所存储的专业词汇进行匹配;
根据与遍历到的每句文字最匹配的词库,对相应的那一句文字进行分词处理;
针对分词处理后的每一个文本,计算所划分的每一个词组的词频反词频统计值;
根据每一个词组的词频反词频统计值,对所述待分类的文本进行分类操作。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:存储每一个词组的词频反词频统计值;
进一步包括:在所述待分类的文本中发生文本删除操作或文本增加操作时,根据文本删除操作或文本增加操作所对应的文本,对存储的每一词组的词频反词频统计值进行更新。
3.根据权利要求1所述的方法,其特征在于,
进一步包括:预先设定维度阈值;
所述对所述待分类的文本进行分类操作,包括:
确定每个文本分别对应的多维向量;
根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;
根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;
在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。
4.根据权利要求3所述的方法,其特征在于,
进一步包括:设定统计个数阈值;
所述确定每个文本分别对应的多维向量,包括:在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等;
或,
所述获取每个文本分别对应的第一维度向量,包括:针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向量;
或,
通过下式计算所述余弦相似度:
其中,similarity用于表征所述余弦相似度,cos(θ)用于表征向量A与向量B之间夹角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维度向量,i用于表征向量A或向量B的第i个列值,n用于表征向量A或向量B的列值的最大个数,其中,i是大于等于1且小于等于n的整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510155599.0/1.html,转载请声明来源钻瓜专利网。





