[发明专利]多轮对话管理方法、装置和计算机设备在审
| 申请号: | 202010469698.7 | 申请日: | 2020-05-28 |
| 公开(公告)号: | CN111813904A | 公开(公告)日: | 2020-10-23 |
| 发明(设计)人: | 柳明辉;徐国强 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06N3/04;G06N3/08;G06K9/62;G06Q30/02 |
| 代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 轮对 管理 方法 装置 计算机 设备 | ||
1.一种多轮对话管理方法,其特征在于,包括:
接收输入的第一对话,并提炼出所述第一对话的结构化信息;
根据所述第一对话的结构化信息,以及所述对话管理组件中的神经网络模型预先学习到的最优化参量,确定与所述第一对话匹配的推理参数信息Q(S,A;θ),其中,θ为训练优化得到的最优化参量,所述最优化参量根据预设专家知识训练得到,所述专家知识包括预设对话状态下的最优对话决策动作项,S表示对话状态,A表示与所述对话状态对应的对话决策动作项的奖励分布;
根据所述推理参数信息,选择与所述第一对话的结构化信息匹配的第一对话决策动作项,其中,所述第一对话决策动作项为预存的多个对话决策动作项中的任一对话决策动作项;
控制所述第一对话决策动作项决策出与所述第一对话结构化信息匹配的第二对话,并输出所述第二对话。
2.根据权利要求1所述的多轮对话管理方法,其特征在于,所述接收输入的第一对话,并提炼出所述第一对话的结构化信息的步骤之前,包括:
获取初始参数并锁定目标神经网络;
将所述初始参数输入评价神经网络,并根据最小化差量进行参数优化训练得到第一优化参数,其中,所述最小化差量为
L(θ)=ES,A~ρ(·)[(reward+gamma·{q,(St+1,At+1)∈{(S,A)}最优;
ES,A~ρ(·)表示平均值,reward是第t+1轮对话的奖励,gamma是折现因子常量,表示第t+1轮对话的对话状态和对话决策动作项属于专家知识中的元素,q为初始化常量;max(Qtarget(St+1,At+1;θ))表示目标神经网络根据专家知识拟合得到(St+1,At+1)∈{(S,A)}最优的最大Q值,Qevaluate(St,At;θ)表示t轮对话的平均Q值;
将所述第二优化参数输入所述评价神经网络,并在锁定所述目标神经网络的条件下,再次根据所述最小化差量进行参数优化训练得到第三优化参数;
根据所述目标神经网络和所述评价神经网络的参数优化的循环过程,优化至所述评价神经网络优化收敛,得到所述最优化参量。
3.根据权利要求2所述的多轮对话管理方法,其特征在于,所述获取初始参数并锁定目标神经网络的步骤之前,包括:
将所述专家知识中各预设对话状态,以及与各所述预设对话状态分别对应的对话决策动作项组成训练集,输入所述训练集至初始状态的神经网络进行模拟训练,得到初始化参数项;
将所述初始化参数项作为所述初始参数。
4.根据权利要求1所述的多轮对话管理方法,其特征在于,所述对话管理组件中的神经网络模型由双向LSTM和两层网络构成,所述接收输入的第一对话,并提炼出所述第一对话的结构化信息的步骤之前,包括:
获取三个连续的对话轮回,包括位于当前时刻之前的前对话、当前时刻对应的当前对话以及位于当前时刻之后的后对话;
将所述当前时刻之前的前对话、当前时刻对应的当前对话以及位于当前时刻之后的后对话中的对话状态,通过LSTM层进行序列化编码;
将通过LSTM层进行序列化编码后的编码数据,输入至MLP网络进行编码全连接,形成全连接编码,并通过指定函数输出所述全连接编码相对各对话决策动作项的奖励。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469698.7/1.html,转载请声明来源钻瓜专利网。





