[发明专利]多轮对话管理方法、装置和计算机设备在审
申请号: | 202010469698.7 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111813904A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 柳明辉;徐国强 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06N3/04;G06N3/08;G06K9/62;G06Q30/02 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 轮对 管理 方法 装置 计算机 设备 | ||
本申请揭示了多轮对话管理方法,包括:接收输入的第一对话,并提炼出第一对话的结构化信息;根据第一对话的结构化信息,以及对话管理组件中的神经网络模型预先学习到的最优化参量,确定与第一对话匹配的推理参数信息Q(S,A;θ),其中,θ为训练优化得到的最优化参量,最优化参量根据预设专家知识训练得到,专家知识包括预设对话状态下的最优对话决策动作项,S表示对话状态,A表示与所述对话状态对应的对话决策动作项的奖励分布;根据推理参数信息,选择与第一对话的结构化信息匹配的第一对话决策动作项;控制第一对话决策动作项决策出与第一对话结构化信息匹配的第二对话,并输出第二对话。提高了训练过程的收敛速度和准确率。
技术领域
本申请涉及到计算机领域,特别是涉及到多轮对话管理方法、装置和计算机设备。
背景技术
智能客服机器人最核心和重要的技术就是多轮对话,即可以利用对话历史信息和外界信息,与客户进行自主交互,并非简单的预设的一问一答。多轮对话主要由自然语言理解、对话管理和对话生成三部分组成,其中,对话管理部分是三部分中的最核心和重要的,它是多轮对话与传统的FAQ问答系统最重要的区别。目前,多轮对话机器人的对话管理部分大多采用有限状态机模型,但采用有限状态机模型的机器人经常答非所问、中断卡壳,无法充分利用对话历史信息和外部知识信息与用户进行有效的交互,导致用户的体验效果很差。而且设计对话流程图,耗时耗力,对话语料需要大量人工标注,且只能学到已标注的知识和信息,无法进行自主学习,准确性比较低。
发明内容
本申请的主要目的为提供多轮对话管理方法,旨在解决现有机器人对话不灵活,导致对话交互效果差的技术问题。
本申请提出一种多轮对话管理方法,包括:
接收输入的第一对话,并提炼出所述第一对话的结构化信息;
根据所述第一对话的结构化信息,以及所述对话管理组件中的神经网络模型预先学习到的最优化参量,确定与所述第一对话匹配的推理参数信息Q(S,A;θ),其中,θ为训练优化得到的最优化参量,所述最优化参量根据预设专家知识训练得到,所述专家知识包括预设对话状态下的最优对话决策动作项,S表示对话状态,A表示与所述对话状态对应的对话决策动作项的奖励分布;
根据所述推理参数信息,选择与所述第一对话的结构化信息匹配的第一对话决策动作项,其中,所述第一对话决策动作项为预存的多个对话决策动作项中的任一对话决策动作项;
控制所述第一对话决策动作项决策出与所述第一对话结构化信息匹配的第二对话,并输出所述第二对话。
优选地,接收输入的第一对话,并提炼出所述第一对话的结构化信息的步骤之前,包括:
获取初始参数并锁定目标神经网络;
将所述初始参数输入评价神经网络,并根据最小化差量进行参数优化训练得到第一优化参数,其中,所述最小化差量为L(θ)=ES,A~ρ(·)[(reward+gamma·{q,(St+1,At+1)∈{(S,A)}最优;
max(Qtarget(St+1,At+1;θ)),ES,A~ρ(·)表示平均值,reward是第t+1轮对话的奖励,gamma是折现因子常量,表示第t+1轮对话的对话状态和对话决策动作项属于专家知识中的元素,q为初始化常量;max(Qtarget(St+1,At+1;θ))表示目标神经网络根据专家知识拟合得到(St+1,At+1)∈{(S,A)}最优的最大Q值,Qevaluate(St,At;θ)表示t轮对话的平均Q值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469698.7/2.html,转载请声明来源钻瓜专利网。