[发明专利]人机对话模型训练方法、人机对话方法及设备在审

申请号：	202211697905.X	申请日：	2022-12-28
公开（公告）号：	CN115952267A	公开（公告）日：	2023-04-11
发明（设计）人：	张赛;王小捷;袁彩霞;冯方向;胡宇巍	申请（专利权）人：	北京邮电大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/35;G06F18/214
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	孙清然;王琦
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人机对话模型训练方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种人机对话模型训练方法，其特征在于，包括：

a、利用人机对话模型，进行单个对话过程的样本数据采样，得到其中每轮对话对应的对话状态追踪样本数据和对话策略样本数据，并确定所述对话状态追踪样本数据对应的理解难度等级，将所述对话状态追踪样本数据加入第一样本数据池，将所述对话策略样本数据加入第二样本数据池；

b、如果已采样的对话过程数量达到预设第一阈值的整数倍，则按照所述理解难度等级，对所述第一样本数据池进行拆分，得到每种理解难度等级对应的样本数据子池，利用所述样本数据子池，采用课程学习方法，训练所述人机对话模型的对话状态追踪模块，并在训练完成后清空所述第一样本数据池；如果已采样的对话过程数量达到预设第二阈值的整数倍，则利用所述第二样本数据池中的样本数据，采用强化学习的方法，训练所述人机对话模型的对话策略模块，并在训练完成后清空所述第二样本数据池；其中，所述第一阈值大于所述第二阈值；

c、如果已采样的对话过程数量未达到预设的对话过程数量阈值，则返回所述步骤a。

2.根据权利要求1所述的方法，其特征在于，

所述对话状态追踪样本数据包括：当前轮对话中所述对话状态追踪模块的输入数据和理论输出数据；

所述对话策略样本数据包括：当前轮对话中所述对话策略模块的输入数据、实际输出数据和相应的奖励数据。

3.根据权利要求2所述的方法，其特征在于，所述利用人机对话模型，进行单个对话过程的样本数据采样包括：

a1、机器侧的所述人机对话模型的对话策略模块基于当前的训练任务，选择系统动作并输出相应的系统语句；

a2、所述人机对话模型响应于所述用户侧当前回复的用户语句，利用所述对话状态追踪模块，基于所述用户语句和当前的对话历史，确定当前对话状态；利用所述对话策略模块，基于所确定的对话状态，选取系统动作；利用自然语言生成模块，基于所选取的系统动作，输出系统语句；触发所述用户侧确定所述对话状态追踪模块的理论输出数据；并触发机器侧的机器视角模块将所述用户语句对应用户动作的预设理解难度等级，确定为当前轮对话的所述对话状态追踪样本数据对应的所述理解难度等级；

a3、如果当前的对话轮次没有达到预设最长对话轮次，并且当前轮对话选取的所述系统动作的意图不是结束对话，则判定所述对话过程未结束，否则判定所述对话过程结束，触发用户侧确定当前的对话状态和用户目的是否一致，如果当前同时满足：对话轮次未达到所述最长对话轮次、当前轮对话选取的所述系统动作的意图为结束对话、所述对话过程结束时确定的对话状态和所述用户目的一致，则判定对话成功，否则，判定对话失败；所述用户目的由用户侧从预设的对话目的集合中随机选择得到；

a4、基于所述对话过程是否结束、对话是否成功、当前轮对话选取的系统动作是否符合预设的对话流程，确定所述对话策略模块的奖励数据；

a5、如果所述对话过程未结束，则返回步骤a2继续下一轮对话的样本数据采集。

4.根据权利要求3所述的方法，其特征在于，

所述用户侧为预先训练的用户模型，所述用户模型用于模拟用户生成对话语句；

在步骤a1和步骤a2之间进一步包括：

所述用户模型基于所述人机对话模型输出的系统语句，选取用户动作，基于所述用户动作生成所述用户语句并输出；

步骤a2中的所述确定所述对话状态追踪模块的理论输出数据包括：

基于当前轮对话对应的用户动作和在上一轮对话中确定的对话状态，确定所述对话状态追踪模块的理论输出数据；

步骤a2进一步包括：

基于所述用户目的和当前轮对话选取的所述系统动作，确定所述用户模型的理论输出数据；

步骤a4进一步包括：

基于所述对话过程是否结束、对话是否成功、所述用户模型在当前轮对话选取的所述用户动作是否符合预设的对话流程，确定所述用户模型的奖励数据；