[发明专利]改进Transformer融入知识的端到端对话方法有效

申请号：	202210508811.7	申请日：	2022-05-11
公开（公告）号：	CN114625861B	公开（公告）日：	2022-09-06
发明（设计）人：	谢冰;宋伟;朱世强;袭向明;金天磊;周元海	申请（专利权）人：	之江实验室
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/31;G06F16/215;G06F40/205
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310023 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	改进 transformer 融入知识端到端对话方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了改进Transformer融入知识的端到端对话方法，首先收集以对话和知识组成的二元组，将该二元组作为训练数据；对训练数据进行清洗，将训练数据组成包括对话、知识和回复的三元组形式，并对该三元组进行预处理；构建由编码运算模块、知识解码器运算模块和解码器运算模块组成的改进的Transformer模型；利用训练数据与三元组训练改进的Transformer模型，并保存；将以对话和知识组成的二元组输入训练好的改进的Transformer模型中，模型预测输出回复结果；用户对模型输出的回复结果进行回复后，将模型输出的回复结果和用户回复拼接到对话记录串中，并选取新的知识输入训练好的改进的Transformer模型中持续进行端到端对话。该方法充分利用Transformer模型结构将知识细致融合用于生成对话。

技术领域

本发明属于自然语言处理领域，特别涉及改进Transformer融入知识的端到端对话方法。

背景技术

早期的对话系统基于规则和模版对输入进行回复，如ELIZA和ALICE。这种对话系统优点是回复可控；缺点是回复只能覆盖设定好的问题，需要大量人力准备问答对，不能很好的处理闲聊这种开放式聊天场景。

随着深度学习的发展和互联网数据的积累，利用神经网络生成回复开始流行。一种典型的结构是sequence to sequence结构。它将输入编码成语义向量，再由解码器自回归的生成回复。编码器和解码器起初一般基于RNN、LSTM或GRU构建。后来发展到基于注意力的结构，例如GPT和Transformer。与RNN结构相比，注意力机制在特征提取和生成速度上更有优势。在大量数据上训练的模型可以生成流畅的回复。与早期基于规则和模版的方法相比，基于神经网络的对话系统是一种端到端的系统，回复生成的中间过程不可控，需要大量训练数据。优点是不需要大量的人力，生成的回复覆盖范围广，对于未知的问题也能生成流畅的回复。

然而基于神经网络的端到端模型虽然可以生成流畅回复，但是倾向于生成不含知识或信息的通用回复，例如“不知道”、“好的”、“嗯”。这种回复虽然没有语法错误，但是对双方的对话没有促进作用，用户很快会觉得无聊而结束对话。为了使用户有更好的对话体验，如何使模型能够生成包含知识的回复是一个值得研究的问题。

目前已有相关技术公开了融入知识的对话系统，核心的融入方法是将知识转化为向量，与解码器的隐向量进行拼接后生成回复字符。这种做法简单明了，但是缺少对知识更细致的解析与融合。

发明内容

针对现有技术不足，本发明提出了改进Transformer融入知识的端到端对话方法。

为实现上述目的，本发明的技术方案为：本发明实施例的第一方面提供了一种改进Transformer融入知识的端到端对话方法，所述方法包括如下步骤：

S1，收集以对话和知识组成的二元组，将该二元组作为训练数据；

S2，对训练数据进行清洗，将训练数据组成包括对话、知识和回复的三元组形式，并对该三元组进行预处理；

S3，构建由编码运算模块、知识解码器运算模块和解码器运算模块组成的改进的Transformer模型；

S4，利用步骤S1得到的训练数据与步骤S2得到的三元组训练步骤S3构建的改进的Transformer模型，并保存；

S5，将以对话和知识组成的二元组输入训练好的改进的Transformer模型中，模型预测输出回复结果；

S6，用户对模型输出的回复结果进行回复后，将模型输出的回复结果和用户回复拼接到对话记录串中，并选取新的知识输入训练好的改进的Transformer模型中持续进行端到端对话。

进一步地，所述预处理包括去掉空格，制表符，换行符，字母全部转化为小写，字符归一化在内的操作。