[发明专利]人机对话模型训练方法、人机对话方法及设备在审
| 申请号: | 202211697905.X | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN115952267A | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 张赛;王小捷;袁彩霞;冯方向;胡宇巍 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F18/214 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 孙清然;王琦 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 人机对话 模型 训练 方法 设备 | ||
本申请公开了一种人机对话模型训练方法、人机对话方法及设备,其中训练方法包括:利用人机对话模型采样单个对话过程的样本数据,得到每轮对话的对话状态追踪和对话策略样本数据,确定对话状态追踪样本数据的理解难度等级,将对话状态追踪和对话策略样本数据分别加入第一和第二样本数据池;若对话过程数达到整数倍第一阈值则按照理解难度等级拆分第一样本数据池,利用拆分结果采用课程学习方法训练对话状态追踪模块,清空相应数据池;若对话过程数达到整数倍第二阈值则利用第二样本数据池训练对话策略模块,清空相应数据池,第一阈值大于第二阈值;若对话过程数未达到预设阈值,则返回所述采样步骤。采用本申请可以增强模型收敛性和对话智能性。
技术领域
本发明涉及人工智能技术,特别是涉及一种人机对话模型训练方法及设备和一种人机对话方法及设备。
背景技术
在很多客服业务场景中,都需要客服人员和用户进行对话来收集信息、处理订单等。在高峰期时,用户需求大量增加,人工客服难以应对,因此业界普遍开发机器客服来缓解人工客服不足的问题。现有的研究工作对于人机对话系统的训练普遍使用监督学习或强化学习的方法。
目前,人机对话系统已经得到了广泛的应用。人机对话系统在每一轮首先依据对话状态追踪模块理解用户意图以及记录从对话开始到目前的对话状态,然后,再依据对话策略模块进行系统意图分类实现多轮对话。对话策略模块决定机器客服当前轮选取的动作,是人机对话系统的重要组成部分。
发明人在实现本发明的过程中发现现有人机对话模型训练方法存在准确性差、收敛困难,进而影响人机对话智能性的问题。经过研究分析发现上述问题的具体原因如下:
在现有人机对话模型的训练过程中,通常采用对话状态追踪和对话策略模块同步训练的方法,即在模型训练过程中,同时更新对话状态追踪模块和对话策略模块。然而,对话状态追踪模块和对话策略模块之间会互相影响。
一方面,在训练过程中,对话策略模块会受到对话状态追踪模块的影响,导致对话策略的训练出现偏差。强化学习是一个在探索中学习的方法,智能体选取策略和环境进行交互,环境发生变化的同时给出一个奖励,奖励用来评估选取动作的好坏,之后,再根据奖励进行参数更新。在对话系统中,对话系统和用户模型之间进行交互采样对话,采样过程中获取奖励,最终根据奖励来更新模型参数。但是,在交互过程中,由于对话状态追踪模块存在一定误差,导致对话策略模块将会基于对话状态追踪模块的错误输出进行决策。这样,在一些情况下,尽管对话策略模块的决策是正确的,但是由于对话状态追踪模块始终不能更新出正确的对话状态,使得对话达到最长对话轮次,从而导致对话失败。因此,对话状态追踪模块的误差将会导致在正确的对话策略决策下对话失败,从而导致正确的对话策略受到“惩罚”。
另一方面,对话策略模块也会间接影响对话状态追踪模块。对话系统中不同的对话决策,往往会带来不同的用户答复,这些用户答复输入到对话系统中后,经过对话状态追踪模块进行用户语句的理解并更新系统的对话状态。然而,对于不同类型的用户语句,系统对话状态追踪模块理解的准确率也会不一样,这样,就会给对话状态追踪模块带来不同的误差。同时,强化学习是一个采样过程,由于对话策略的采样具有较强的随机性,进一步导致采样数据中不同类型的用户语句数据分布不均衡,从而导致对话状态追踪模块的训练不够稳定,并且无法对于困难且少见的用户语句类别进行充分学习。
因此,在现有人机对话模型的训练过程中,由于对话状态追踪和对话策略模块的同步训练,使得对话策略模块会受到对话状态追踪模块的影响而导致出现偏差,同时,对话状态追踪模块也会受到对话策略模块的影响而导致结果不稳定以及训练不够充分,从而最终导致整个人机对话模型收敛困难,进而影响人机对话的智能性。
发明内容
有鉴于此,本发明的主要目的在于提供一种人机对话模型训练方法、人机对话方法及设备,可以增强模型收敛性,提高人机对话的智能性。
为了达到上述目的,本发明实施例提出的技术方案为:
一种人机对话模型训练方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211697905.X/2.html,转载请声明来源钻瓜专利网。





