[发明专利]多领域对话管理系统及其构建方法有效
| 申请号: | 201910385840.7 | 申请日: | 2019-05-09 |
| 公开(公告)号: | CN110096583B | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 俞凯;陈志;陈露 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 领域 对话 管理 系统 及其 构建 方法 | ||
本发明公开一种多领域对话管理系统及其构建方法,其中系统包括:全局代理,配置为输入为槽无关对话状态,输出为槽无关对话动作分布;多个本地代理,配置为输入为槽相关对话状态,输出为槽相关对话动作分布;所述多个本地代理中的每个本地代理之间配置为相互通信,所述多个本地代理中的每个本地代理与所述全局代理之间配置为相互通信,以进行各代理之间的参数共享。本发明多领域对话管理系统由一些子网络(示例性地,全局代理和本地代理)组成,通过参数共享机制和通信机制,可以在多个领域中使用单个参数集,这使得可以在领域之间训练通用策略。
技术领域
本发明涉及对话管理技术领域,尤其涉及一种多领域对话管理系统及其构建方法。
背景技术
面向任务的口语对话系统(SDS)旨在帮助人类用户完成特定任务(例如,酒店预订)。对话管理是SDS的核心部分。对话管理有两个主要任务:对话置信状态跟踪(总结对话历史)和采取对话动作(决定如何回复用户)。在本发明中只关注设计一个策略,选择哪个对话行动来回复用户。
对话过程可以抽象为部分可观察的马尔可夫决策过程(POMDP)。在此框架下,强化学习方法可用于自动策略优化。在过去几年中,有许多深度强化学习(DRL)算法,它们使用神经网络(NN)作为函数逼近器研究对话策略。这些方法中的大多数侧重于单个领域中的对话策略优化。然而,多领域通常存在于现实场景中,例如,Apple Siri可以支持许多领域(查找餐馆或预订机票)。如果将传统的基于DRL的方法用于多领域对话策略优化,则必须针对每个领域训练单个策略,这意味着总模型参数的数量与领域的数量成比例并且数据收集在一个领域不能在其他领域中重用。
未解决上述技术问题,现有技术中采用以下方法:
(1)关于多领域对话策略优化方法:早期关于多领域对话问题的解决方法都是基于分布式高斯过程强化学习方法(GPRL);基于分布式高斯过程强化学习方法利用高斯过程作为函数逼近器来表示动作值函数,通过Q学习方法来更新函数逼近器的参数;基于分布式高斯过程强化学习方法在随着对话领域复杂度增加,其需要的计算力也随之增加,也就是说扩展性很差;基于分布式高斯过程强化学习方法所选用的逼近器存在的缺陷。
(2)关于行为者-批判者强化学习方法:eNAC和ACER都是行为者- 批判者强化学习方法在对话策略领域的应用;行为者-批判者强化学习方法将值迭代方法和策略梯度两种方法结合起来的强化学习算法;目前行为者 -批判者强化学习方法都是用在单领域上,不能实现多领域之间训练出一个共享的对话策略;网络结构设计不合理导致不能实现多领域共享对话策略。
(3)关于结构化对话策略:FDM和GNN都是通过将决策过程结构化来优化策略性能。FDM和GNN都是基于DQN算法来做的改进,其缺陷在于训练过程不稳定。
一种解决方案是为所有领域训练通用策略。但是,使用传统的基于 DRL的方法有两个障碍。
问题1:两个领域中的对话状态空间和动作集通常是不同的,因为它们的领域本体不同。因此,模型结构必然是不同的,即神经网络的参数不能跨领域完全共享。这是在不同领域之间训练通用策略的第一个障碍。
问题2:使用来自不同领域的经验来更新策略参数需要稳定且有效的优化算法。大多数传统的DRL算法都不具有样本效率,即需要数千个对话来训练可接受的策略,或者训练过程不稳定。
发明内容
本发明实施例提供一种多领域对话管理系统及其构建方法,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种多领域对话管理系统,包括:
全局代理,配置为输入为槽无关对话状态,输出为槽无关对话动作分布;
多个本地代理,配置为输入为槽相关对话状态,输出为槽相关对话动作分布;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910385840.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力业务中会话机器人的训练方法
- 下一篇:一种应答方法和装置





