[发明专利]一种有模型的情绪感知对话策略学习方法在审

申请号：	202210761097.2	申请日：	2022-06-30
公开（公告）号：	CN115062114A	公开（公告）日：	2022-09-16
发明（设计）人：	王振宇;张睿;徐恺	申请（专利权）人：	华南理工大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型情绪感知对话策略学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种有模型的情绪感知对话策略学习方法。所述方法包括以下步骤：对话代理与人类用户进行多轮交互得到真实对话经验，根据任务场景对真实对话经验进行数据清洗并训练对话策略模型；情绪感知的世界模型基于真实对话经验进行参数调整，以学习用户的动作和情绪变化；基于模拟经验的策略学习，通过对话代理与情绪感知的世界模型进行交互得到模拟对话经验并优化对话策略模型的参数。本发明将情绪感知的对话策略学习由无模型转化为有模型的学习过程，解除原有方法对用户模拟器的依赖，同时改善了现有深度Dyna‑Q学习框架中存在的模拟性能不佳的问题，并提高对话策略模型的训练效率。

技术领域

本发明涉及自然语言处理中的人机对话领域，具体涉及一种融合用户满情感的任务导向型对话策略学习方法。

技术背景

随着自然语言技术的突破，人机对话系统在人机交互、智能客服等领域应用日益广泛。国家在数字经济建设方面的快速推进促使各行业提升其智能化程度。而人机对话场景中，真实用户直接参与模型的训练需要消耗较大的人力成本，通常使用成本较低的用户模拟器来进行训练数据的收集。而基于用户模拟器进行策略学习的方法存在着一些不足，如：(1)用户模拟器通常基于规则构建，其表现与真实用户行为之间的偏差会对策略模型的最终性能产生影响；(2)随着时间推移，对话代理的用户群体可能会发生变化，而基于规则的用户模拟器无法观察和学习到这种变化；(3)用户模拟器在迁移到不同领域的任务时需要重新设计，费时费力。

为了解决这一问题，可以通过深度Dyna-Q学习方法实现对用户的建模并学习环境状态间的转移概率信息，从而将无模型的对话策略学习转化为有模型的学习任务。深度Dyna-Q学习使用了一个称为世界模型的网络，从真实人机对话数据中学习用户行为，通过让对话代理和世界模型进行交互得到额外的模拟对话数据，并用于策略模型的优化。现有的深度Dyna-Q学习方法没有考虑对用户情感的模拟，同时，深度Dyna-Q学习方法仍然受到世界模型模拟能力的制约。当前深度Dyna-Q方法通常采用多层感知机网络来构建世界模型，难以有效学习到复杂对话场景中用户的行为模式，进而导致模拟经验质量不佳。

现有的发明专利中，获得用户查询的对话上下文，根据所述对话上下文获得多个候选对话，并在多个候选对话中选择与所述对话上下文最匹配的候选对话作为答复对话。该方法只能实用于数据集充足的场景(付振新,崔少波,计峰,严睿,张佶,陈海青.对话方法及系统[P].开曼群岛：CN114036267A,2022-02-11.)。

发明内容

本发明的一种有模型的情绪感知对话策略学习方法将用户情绪与有模型的策略学习方法相结合。能够克服对话策略学习中对用户模拟器的依赖，并提高对话策略模型的训练效率。

本发明的目的至少通过如下技术方案之一实现。

一种有模型的情绪感知对话策略学习方法，包括以下步骤：

S1、对话代理与人类用户进行多轮交互得到真实对话经验，根据任务场景对真实对话经验进行数据清洗并训练对话策略模型；

S2、情绪感知的世界模型基于真实对话经验进行参数调整，以学习用户的动作和情绪变化；

S3、基于模拟经验的策略学习，通过对话代理与情绪感知的世界模型进行交互得到模拟对话经验并优化对话策略模型的参数。

进一步地，步骤S1中，数据清洗的方式为对真实数据中的缺失、重复、打字错误进行过滤；

根据数据清洗后的真实对话经验训练已有的基于马尔可夫决策过程框架，训练完成后得到对话策略模型。

进一步地，步骤S2中，情绪感知的世界模型包括基于AGRU的对话上下文建模模块、基于子目标分割的特征塑造模块、预测层网络和前瞻预测模块；

其中，基于AGRU的对话上下文建模模块对用户目标进行编码；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。