[发明专利]客服问题聚类方法、装置和存储介质在审
申请号: | 202111589346.6 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114254114A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 孙园 | 申请(专利权)人: | 国泰新点软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/247;G06F40/216 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 许冬莹 |
地址: | 215600 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 客服 问题 方法 装置 存储 介质 | ||
1.一种客服问题聚类方法,其特征在于,所述方法包括:
获取待聚类的客服问题;
对于每条客服问题,根据主题词表识别所述客服问题中包含的主题词;
根据同义词库将识别得到的所述主题词转换为排名在首位的同义词;
将同义词相同的各个客服问题进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取语料数据,所述语料数据包括来自互联网的文本语料数据以及来自客服场景域的相关语料数据;
根据预设分词库提取所述语料数据中的关键词;
根据提取到的各个关键词训练神经网络;
通过所述神经网络生成每个关键词的权重;
根据每个关键词的权重以及K平均算法,生成所述同义词库,所述同义词库中的各个关键词按照权重由高到低排序。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取各个关键词的重要参数;
将所述重要参数满足预设条件的关键词添加至所述主题词表。
4.根据权利要求3所述的方法,其特征在于,所述获取各个关键词的重要参数,包括:
对于每个关键词,计算所述关键词的信息熵,将所述信息熵作为所述重要参数。
5.根据权利要求4所述的方法,其特征在于,所述将所述重要参数满足预设条件的关键词添加至所述主题词表,包括:
筛选重要参数高于第一阈值的关键词;
根据停用词表过滤筛选得到的关键词;
将过滤后的各个关键词添加至所述主题词表。
6.根据权利要求2所述的方法,其特征在于,所述根据预设分词库提取所述语料数据中的关键词之前,所述方法还包括:
基于互信息处理方法发现所述语料数据中的新词;
根据发现的新词更新所述预设分词库。
7.根据权利要求6所述的方法,其特征在于,所述基于互信息处理方法发现所述语料数据中的新词,包括:
计算所述语料数据中的各个分词单元之间的互信息;
若计算得到的互信息高于第二阈值,则将所述分词单元作为新词。
8.一种客服问题聚类装置,其特征在于,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如权利要求1至7任一所述的方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如权利要求1至7任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰新点软件股份有限公司,未经国泰新点软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111589346.6/1.html,转载请声明来源钻瓜专利网。