[发明专利]基于知识增强与上下文感知的对话状态追踪方法及系统在审
申请号: | 202210182490.6 | 申请日: | 2022-02-25 |
公开(公告)号: | CN114564568A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 陈羽中;林宇航 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 张灯灿;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 增强 上下文 感知 对话 状态 追踪 方法 系统 | ||
1.一种基于知识增强与上下文感知的对话状态追踪方法,其特征在于,包括以下步骤:
步骤A:采集对话上下文和对话状态数据,构建对话训练集TS;
步骤B:使用训练集TS,训练基于知识增强的深度学习网络模型G;
步骤C:将用户与系统的对话数据依次输入深度学习网络模型G中,输出当前的对话状态。
2.根据权利要求1所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B具体包括以下步骤:
步骤B1:对于训练集TS中的一个对话样本的第t回合对话进行编码,得到初始表征向量所述第t回合对话当前对话、对话历史以及对话状态的拼接;
步骤B2:将对话状态的初始表征向量输入到多头注意力机制模块,得到注意力增强后的对话状态语义表征向量
步骤B3:将步骤B2得到的注意力增强后的对话状态语义表征向量与对话历史初始表征向量做交叉注意力门控融合,得到对话历史与对话状态的融合表征向量
步骤B4:将当前回合对话的初始表征向量与步骤B3得到的融合表征向量进行词级别拼接,得到对话上下文表征向量
步骤B5:将增强后的域-槽描述通过BERT编码得到初始表征向量将增强后的域-槽描述输入知识提取模块得到对应的知识嵌入表征向量然后将得到的初始表征向量和知识嵌入表征向量进行融合,得到知识增强后的域-槽描述表征向量
步骤B6:将步骤B4得到的对话上下文表征向量与步骤B5得到的表征向量进行注意力建模,得到包含上下文信息的知识增强的域-槽表征向量
步骤B7:将步骤B6得到的所有的域-槽表征向量经过多头注意力建模,得到最终的域-槽表征向量ΥS;
步骤B8:对步骤B7得到的域-槽表征向量与对应域-槽对的候选槽值通过编码后的表征向量V′j∈Vj进行相似度匹配,选择最相似的槽值作为预测结果;将预测值与真实值进行比对计算损失,利用反向传播算法计算深度网络中各参数的梯度,并利用随机梯度下降算法更新参数;
步骤B9:当深度学习网络模型产生的损失值小于设定的阈值或达到最大的迭代次数时,终止深度学习模型G的训练。
3.根据权利要求2所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对话训练集表示为其中N表示训练样本数也即多少个多回合对话样本;n表示每一个多回合对话的回合数,(Dt,Bt-1,Ht)表示对话训练集中的一个回合的训练样本;其中表示当前回合对话,表示除了当前回合对话外的对话历史,Bt-1表示当前对话状态且其是模型在预测过程中产生的;因此,模型的输入为其中[cls]与[sep]为特殊token,用来分隔输入的各个部分;
步骤B12:将步骤B12的结果Xt经过BERT编码后拆分得到对应三个部分初始表征:其中L为当前对话的长度,Lh为当前对话历史的长度,J表示当前对话状态的长度,d为token表征向量的维度。
4.根据权利要求3所述的基于知识增强与上下文感知的对话状态追踪方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21:将步骤B12输出的历史对话状态部分经过多头注意力建模:
其中,为可学习权重参数,SelfAttention(Q,K,V),MultiHeadAttention(Q,K,V)分别为自注意力与多头注意力机制,Concat(·)函数将h个自注意力头的输出拼接起来;
步骤B22:将步骤B21的多头输出的拼接结果映射到原空间,得到注意力增强后的对话状态语义表征向量
其中,为可学习的参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210182490.6/1.html,转载请声明来源钻瓜专利网。