[发明专利]改进Transformer融入知识的端到端对话方法有效
申请号: | 202210508811.7 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114625861B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 谢冰;宋伟;朱世强;袭向明;金天磊;周元海 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31;G06F16/215;G06F40/205 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 transformer 融入 知识 端到端 对话 方法 | ||
1.一种改进Transformer融入知识的端到端对话方法,其特征在于,所述方法包括如下步骤:
S1,收集以对话和知识组成的二元组,将该二元组作为训练数据;
S2,对训练数据进行清洗,将训练数据组成包括对话、知识和回复的三元组形式,并对该三元组进行预处理;
S3,构建由编码运算模块、知识解码器运算模块和解码器运算模块组成的改进的Transformer模型;利用步骤S1得到的训练数据与步骤S2得到的三元组训练改进的Transformer模型,并保存;
改进的Transformer模型中的知识解码器运算模块将标准Transformer模型中解码器运算模块中的掩码值全部置为0,不带掩码,使得多头掩码注意力机制改为多头注意力机制;
S4,接受用户输入,并选取相关知识;再对用户输入和相关知识进行预处理;
S5,将S4预处理后的用户输入和相关知识输入训练好的改进的Transformer模型中,模型预测输出回复结果;
S6,用户对模型输出的回复结果进行回复后,将模型输出的回复结果和用户回复拼接到对话记录串中,并选取新的知识输入训练好的改进的Transformer模型中持续进行端到端对话。
2.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,所述步骤S2和步骤S4中的预处理均包括去掉空格,制表符,换行符,字母全部转化为小写,字符归一化在内的操作。
3.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,所述对话具体为:将最近的对话记录拼接成字符串,保留最新对话记录以保证拼接后的字符串长度不超过512,更早的对话记录将被舍弃;如果最新一条回复的字符串长度超过512,则截取后512个字符串。
4.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,所述知识和回复为长度不超过512的字符串。
5.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,对三元组进行预处理包括将字符对应成数字索引;并进行对话的拼接,生成说话者标识序列;所述说话者标识序列中的0表示说话者是用户,1表示说话者是机器人。
6.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,改进的Transformer模型中的编码运算模块、解码器运算模块与标准Transformer模型中的编码运算模块、解码器运算模块的结构相同。
7.根据权利要求1所述的改进Transformer融入知识的端到端对话方法,其特征在于,所述步骤S5中模型预测输出回复结果的过程具体为:将编码运算模块每个编码层的输出向量接入线性层再经过逻辑回归得到概率向量,用贪心搜索法或集束搜索法生成回复,直到生成结束符或长度等于阈值,所述阈值小于等于512,将生成的回复索引向量转化为字符串输出。
8.一种改进Transformer融入知识的端到端对话装置,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的改进Transformer融入知识的端到端对话方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的改进Transformer融入知识的端到端对话方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210508811.7/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法