[发明专利]一种智能客服方法及系统有效
| 申请号: | 201810910686.6 | 申请日: | 2018-08-10 |
| 公开(公告)号: | CN109033428B | 公开(公告)日: | 2021-09-10 |
| 发明(设计)人: | 邓昕;王飞;洪伟俊 | 申请(专利权)人: | 深圳市磐创网络科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332 |
| 代理公司: | 深圳市中科创为专利代理有限公司 44384 | 代理人: | 彭西洋 |
| 地址: | 518000 广东省深圳市宝安区石岩*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 客服 方法 系统 | ||
1.一种智能客服方法,其特征在于,包括以下步骤:
建立问答数据库,其由若干条包括问题、答案的问答数据组成;
建立与问答数据库相关联的问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案;
用户提出待解答问题,问答模型从问答数据库中找出匹配度最高的N条答案,再使用三种特征工程的方法对N条答案再进行一次相似度计算,给出对应答案推荐给用户;
获取用户对推荐的答案评分,基于该评分优化调整问答模型,使得问答模型匹配出来的结果更加准确;
使用TFIDF算法和Doc2Vec算法从问答数据库中找出匹配度最高的20条答案;
将匹配度最高的20条答案再进行一次相似度计算;
以相似度由高到低的排序将答案推荐给用户;
将匹配度最高的20条答案再进行一次相似度计算的具体方法为:
使用三种特征工程的方法对匹配度最高的20条答案再进行一次相似度计算,三种方法计算方式如下:
(1)、计算相同关键词的比例
KeyW1表示提出问题中非重复关键词的个数,KeyW2表示匹配问题中包含提出问题中关键词的个数;则:
(2)、计算句子长度的差异率
Len1,Len2分别表示提出问题与匹配问题的长度,即两个问题中词的个数,则:
(3)、计算关键词的顺序
对用户输入问题的关键词排序成自然数序列,找出匹配问题中与输入问题相同的关键词的集合W,W中每个关键词的值为输入问题的自然数序列中对应关键词的值,定义MaxRev为最大逆序数,即关键词的组合数;Rev表示W的逆序数,则:
(4)基于这三种特征工程方法得到总的相似度计算方式:
Sim=λ1*WordSim+λ2*LenSim+λ3*OrdSim
其中,λ1、λ2、λ3为系数参数,取值为λ1/λ2/λ3∈(0-1),且λ1+λ2+λ3=1;该方法还包括问答模型优化的步骤:
按权重λ1’使用TF-IDF模型选词,其中TF、IDF计算公式如下:
按权重λ2’使用Doc2Vec模型选词向量,并根据评分,调整λ1’、λ2’在问答模型中的权重:
Sim=λ1′*Simtfidf+λ2′*Simdoc2vec
其中,λ1’、λ2’为系数参数,取值为λ1’、λ2’∈(0-1),且λ1’+λ2’=1;
其中,TF-IDF模型,即词频-逆文件频率,词频指的是将数据库中所有问题进行分词后,每个词在所有词中出现的频率;词的逆文件频率的思想是如果包含该词的问题越少,IDF值越大,说明该词能更好的区分不同问题之间的差异;Doc2Vec模型匹配与用户输入问题相似度高的问题;Doc2Vec模型的原理和Word2Vec模型的原理相似,并在其基础上加上了一个段落向量;该段落向量可以表达段落的主旨;段落向量就是每个问题向量;在训练过程中,设置窗口大小为3,即每次从问题中取三个词向量输入到模型中进行训练,同时每次训练都会将这个段落向量一并输入进行训练。
2.根据权利要求1所述的智能客服方法,其特征在于,所述问答数据库可以经由用户批量或逐条导入问答数据建立。
3.根据权利要求1-2任一项所述的智能客服方法的系统,其特征在于,包括:
问答数据库,其由若干条包括问题、答案的问答数据组成;
问答模型,所述问答模型针对输入的问答数据形成映射关系,匹配问答数据中的问题及与之对应的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市磐创网络科技有限公司,未经深圳市磐创网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810910686.6/1.html,转载请声明来源钻瓜专利网。





