[发明专利]一种带有强泛化知识选择的开放域对话生成方法及模型在审
申请号: | 202010951173.7 | 申请日: | 2020-09-11 |
公开(公告)号: | CN112463935A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 蒋斌;杨景旭;杨超 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 带有 泛化 知识 选择 开放 对话 生成 方法 模型 | ||
1.一种带有强泛化知识选择的开放域对话生成方法,其特征在于,包括以下步骤:
步骤1,知识检索,在总知识库中检索出与当前对话内容有关的知识条目集合,为之后的细粒度知识选择预准备;
步骤2,Transformer编码器,采用拥有多头自注意力机制的编码器,两个Transformer编码器对用户消息X和知识集合F中的每条知识都进行分别独立编码,并输出;
步骤3,发散知识选择器负责选择一条特定知识作为最终的知识候选,用于促进回复生成;
步骤4,知识感知解码器负责将所选知识正确且有效地整合到回复生成过程中。
2.根据权利要求1所述的一种带有强泛化知识选择的开放域对话生成方法,其特征在于,所述的Transformer编码器,对句子中的每个词语均执行编码输出:
将带有位置感知信息的词嵌入序列作为输入:
Input(S)=[s1,...,sns]
其中,S=(s1,s2,...,sns)代指包含ns个词语的输入句子,是单词si的词嵌入表示;
使用Glove预训练模型初始化词嵌入;PE(·)是一个位置信息编码函数;
Transformer编码器由NE个相同主层堆积而成,其中每个主层具有两个子层:
第一个子层是多头自注意力层MultiHead(Q,K,V),
其中Q是查询矩阵,K是键矩阵,V是值矩阵,在当前情况下,Q=K=V,即自注意力机制;MultiHead(Q,K,V)对Q,K,V线性投影h次,并行地计算h个单头自注意力机制,即被称为多头;
第二个子层是一个全连接前馈神经网络(FFN),两者之间带有ReLU激活函数;
以上两个子层的计算过程在每一主层中都重复进行:
M(n)=MultiHead(D(n-1),D(n-1),D(n-1))
D(n)=FFN(M(n))
其中,n∈(1,...,NE),D(0)=Input(S);
使用En(S)来标识输入句子S的最终的编码结果;
假设X=(x1,x2...,xnx)代指有着nx个单词的用户输入消息,Y=(y1,y2,...,yny)代指有ny个单词的目标回复,代指与当前对话内容相关的一个知识条目集合,该知识集合从总知识库中检索而来,并且每一条知识都以句子文本的形式存在;则用户消息X和知识集合fi使用具有相同结构的两个Transformer编码器分别进行编码,即消息编码器和知识编码器,它们是互相独立的且不共享任何参数;在模型训练过程中,由于发散知识选择器需要利用到目标回复Y的信息,知识编码器同样被用来编码Y;
通过使用平均归一化,将句子的编码结果归一化为一个全局向量,用x表示用户消息,表示知识集合,在接下来的知识选择中使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010951173.7/1.html,转载请声明来源钻瓜专利网。