[发明专利]一种文本分类校正方法及装置有效
| 申请号: | 201410093054.7 | 申请日: | 2014-03-13 | 
| 公开(公告)号: | CN104915356B | 公开(公告)日: | 2018-12-07 | 
| 发明(设计)人: | 夏文菁;王志卿 | 申请(专利权)人: | 中国移动通信集团上海有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 | 
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 | 
| 地址: | 200060 *** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | 本发明公开了一种文本分类校正方法及装置,包括:获取各文本类别包括的文本,组成文本集合;对该文本集合中的文本进行特征词提取处理,得到特征词语;根据该特征词语在每一个类别包括的文本中出现的次数与该文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重;将该文本包括的各特征词语在该文本中的出现次数与在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从该待校正文本在除其所属类别以外的其他类别中,将该待校正文本的分类校正值最大的类别,确定为该待校正文本的新的类别。 | ||
| 搜索关键词: | 一种 文本 分类 校正 方法 装置 | ||
【主权项】:
                1.一种文本分类校正方法,其特征在于,包括:获取各文本类别包括的文本,组成文本集合;对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词语;针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其所属类别中的分类校正值;从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待校正文本;从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别;还包括:当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
            
                    下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
                
                
            该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司,未经中国移动通信集团上海有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410093054.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种旅游景区360度全景构建系统及方法
- 下一篇:一种新型焊接结构





