[发明专利]工单分类方法及装置在审
申请号: | 201810150749.2 | 申请日: | 2018-02-13 |
公开(公告)号: | CN108416375A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 刘占春;王丽;姜晓东 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 王征;刘芳 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 词语 词语集合 分类 预设 朴素贝叶斯分类器 单类别 电信行业 分类效率 单量 分词 减小 | ||
本发明提供一种工单分类方法及装置,通过对工单进行分词,获得词语集合;然后根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例,若所述积极词性词语和消极词性词语的比例满足预设阈值,则确定所述工单为与所述预设阈值对应的工单类别;若所述比例不满足所述预设阈值,则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断,以获取所述工单所属的工单类别。本发明的方法通过词语集合中积极词性词语和消极词性词语的比例进行初步分类,从而减小了需要朴素贝叶斯分类器进行分类的工单量,从而提高分类效率,适用于电信行业的海量工单的分类,且具有较高的准确性。
技术领域
本发明涉及通信技术领域,尤其涉及一种工单分类方法及装置。
背景技术
移动运营商客服代表需要对来自互联网方方面面的舆论评价进行工单处理,例如来自微博、朋友圈等社交网络的状态和评论等,客服代表每日要面对大量的信息,且工单可能有投诉类、建议类、咨询类、表扬类等等不同类别,为了便于客服代表对某一类别的工单进行处理,如优先处理投诉类的工单,从而提高客服代表处理工单的效率,因此需要对这些工单予以分类。
现有技术中通常采用朴素贝叶斯算法对文本进行分类,具有容易实现,运行速度快的特点,被广泛使用,对小规模的数据表现很好。而面对海量工单的分类,则需要占用大量的计算资源,在计算资源有限的前提下,则表现为分类效率降低,导致工单积压,工单无法及时被处理。
发明内容
本发明提供一种工单分类方法及装置,以提高分类效率,利于客服代表对某一类别工单及时的处理,适用于电信行业的海量工单的分类。
本发明的一个方面是提供一种工单分类方法,包括:
对工单进行分词,获得词语集合;
根据词性词典获取所述词语集合中积极词性词语和消极词性词语的比例,若所述积极词性词语和消极词性词语的比例满足预设阈值,则确定所述工单为与所述预设阈值对应的工单类别;
若所述比例不满足所述预设阈值,则采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断,以获取所述工单所属的工单类别。
进一步的,所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行分类前,还包括:
查找所述词语集合中是否包含一级决策语料库中的判定词语,其中所述一级决策语料库包括类别代表词语和/或强烈感情色彩词语,若包含,则确定所述工单为与所述判定词语对应的工单类别。
进一步的,所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断,以获取所述工单所属的工单类别,具体包括:
采用所述贝叶斯分类器获取所述工单属于各个工单类别的概率;
根据所述工单属于各个工单类别的概率及所述积极词性词语和消极词性词语的比例确定所述工单所属的工单类别。
进一步的,所述对工单进行分词,获得词语集合,具体包括:
对所述工单进行分词,并进行词性标注;
根据词性和/或停用词表进行过滤,从而获得所述词语集合。
进一步的,所述采用经过训练的朴素贝叶斯分类器对所述词语集合进行判断前,还包括:
获取训练样本集合,所述训练样本集合包括多个已知类别的工单;
获取每一所述已知类别的工单中的特征词语;
获取各个工单类别在所述训练样本集合中出现的频率、每一特征词语在各工单类别出现的条件概率、以及分类错误的代价因子,从而完成对所述朴素贝叶斯分类器的训练。
进一步的,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810150749.2/2.html,转载请声明来源钻瓜专利网。