[发明专利]客服问题聚类方法、装置和存储介质在审
申请号: | 202111589346.6 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114254114A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 孙园 | 申请(专利权)人: | 国泰新点软件股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/247;G06F40/216 |
代理公司: | 苏州谨和知识产权代理事务所(特殊普通合伙) 32295 | 代理人: | 许冬莹 |
地址: | 215600 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 客服 问题 方法 装置 存储 介质 | ||
本申请公开了一种客服问题聚类方法、装置和存储介质,涉及信息处理技术领域,所述方法包括:获取待聚类的客服问题;对于每条客服问题,根据主题词表识别所述客服问题中包含的主题词;根据同义词库将识别得到的所述主题词转换为排名在首位的同义词;将同义词相同的各个客服问题进行聚类。解决了现有技术中通过人工聚类客服问题时聚类效率较低的问题,达到了可以自动对客服问题进行聚类,提高聚类效率的效果。
技术领域
本发明涉及一种客服问题聚类方法、装置和存储介质,属于信息处理技术领域。
背景技术
随着计算机基数的发展,网上购物已经成为人们重要的消费方式。人们网上购物时经常需要与客服进行沟通,因此客服机器人应运而生。
在传统的智能客服机器人应用中,用户会提出大量相关问题,智能客服机器人对问题做语义分析,找到问题所对应的答案反馈给用户。然而若用户的提问方式与问答知识库中的问题不同,或者所提问题并不存在于智能客服的知识库中,则需要对智能客服的知识库进行扩充维护。
现有方案中,智能客服产品提供方会安排专人查看产品问答记录,找到智能客服没有正确回答的问题,并将该问题与答案经过编写,多人审核后,加入智能客服知识库中。显而易见的通过人力维护知识库的方法虽然准确率较高,但是效率极低。
发明内容
本发明的目的在于提供一种客服问题聚类方法、装置和存储介质,用于解决现有技术中存在的问题。
为达到上述目的,本发明提供如下技术方案:
根据第一方面,本发明实施例提供了一种客服问题聚类方法,所述方法包括:
获取待聚类的客服问题;
对于每条客服问题,根据主题词表识别所述客服问题中包含的主题词;
根据同义词库将识别得到的所述主题词转换为排名在首位的同义词;
将同义词相同的各个客服问题进行聚类。
可选的,所述方法还包括:
获取语料数据,所述语料数据包括来自互联网的文本语料数据以及来自客服场景域的相关语料数据;
根据预设分词库提取所述语料数据中的关键词;
根据提取到的各个关键词训练神经网络;
通过所述神经网络生成每个关键词的权重;
根据每个关键词的权重以及K平均算法,生成所述同义词库,所述同义词库中的各个关键词按照权重由高到低排序。
可选的,所述方法还包括:
获取各个关键词的重要参数;
将所述重要参数满足预设条件的关键词添加至所述主题词表。
可选的,所述获取各个关键词的重要参数,包括:
对于每个关键词,计算所述关键词的信息熵,将所述信息熵作为所述重要参数。
可选的,所述将所述重要参数满足预设条件的关键词添加至所述主题词表,包括:
筛选重要参数高于第一阈值的关键词;
根据停用词表过滤筛选得到的关键词;
将过滤后的各个关键词添加至所述主题词表。
可选的,所述根据预设分词库提取所述语料数据中的关键词之前,所述方法还包括:
基于互信息处理方法发现所述语料数据中的新词;
根据发现的新词更新所述预设分词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰新点软件股份有限公司,未经国泰新点软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111589346.6/2.html,转载请声明来源钻瓜专利网。