[发明专利]一种文本分类校正方法及装置有效
| 申请号: | 201410093054.7 | 申请日: | 2014-03-13 |
| 公开(公告)号: | CN104915356B | 公开(公告)日: | 2018-12-07 |
| 发明(设计)人: | 夏文菁;王志卿 | 申请(专利权)人: | 中国移动通信集团上海有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
| 地址: | 200060 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 分类 校正 方法 装置 | ||
1.一种文本分类校正方法,其特征在于,包括:
获取各文本类别包括的文本,组成文本集合;
对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别;
还包括:
当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
2.如权利要求1所述的方法,其特征在于,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
3.如权利要求1所述的方法,其特征在于,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语,具体包括:
对所述文本集合中的文本进行分词;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
4.如权利要求3所述的方法,其特征在于,在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,还包括:
将分词后得到的词语与预设停用词表中的停用词进行匹配;
在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;
从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,具体包括:
从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
5.一种文本分类校正装置,其特征在于,包括:
获取单元,用于获取各文本类别包括的文本,组成文本集合;
处理单元,用于对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;
第一确定单元,用于针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
第二确定单元,用于针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;
选择单元,用于从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;
第三确定单元,用于从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别;
还包括:
第四确定单元,用于当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
划分单元,用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
6.如权利要求5所述的装置,其特征在于,所述处理单元,具体用于对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合包括的特征词语。
7.如权利要求5所述的装置,其特征在于,所述处理单元,具体用于对所述文本集合中的文本进行分词;从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语,作为所述文本集合包括的特征词语。
8.如权利要求7所述的装置,其特征在于,所述处理单元,还用于在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语之前,将分词后得到的词语与预设停用词表中的停用词进行匹配;在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司,未经中国移动通信集团上海有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410093054.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旅游景区360度全景构建系统及方法
- 下一篇:一种新型焊接结构





