[发明专利]一种基于标记文本和神经网络的对话生成方法有效
| 申请号: | 202011299823.0 | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN112417118B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 金陆骅;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/0455 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 标记 文本 神经网络 对话 生成 方法 | ||
1.一种基于标记文本和神经网络的对话生成方法,其特征在于,包括以下步骤:
1)将包含对话的语料库作为原始数据集;
2)对数据集进行预处理;
所述的步骤2)具体包括以下步骤:
21)对原始数据集进行清洗,筛除对对话生成的质量产生干扰的文本,包括康奈尔大学电影对白语料中电影与人物的介绍文本以及包含辱骂性词汇的语句;
22)在清洗后原始数据集的语料中加入标记符,具体为从日常对话选择部分对话,将其中的选定单词替换为标记符;
3)将预处理后的语料用于神经网络模型的训练;
31)构建基于编码器-解码器的神经网络模型,该神经网络模型的网络结构包括编码器、解码器和注意力机制,所述的编码器包括嵌入层和三个隐藏层,所述的解码器包括三个隐藏层和投影层,所述的注意力机制包括注意力权重、上下文向量和注意力向量;注意力权重wt,t′的表达式为:
其中,和分别是第t轮编码器和解码器的隐藏层状态参数,s(·)为计算两个隐藏层状态之间相关程度的函数,i为轮数编号,m为解码器轮数总数,即解码器输出语句总长度,为提高函数s(·)的自适应能力,具体采用Luong Attention计算,则有:
其中,Wa为参数矩阵,用以动态调节输入与输出间的注意力;
上下文向量的表达式为:
其中,ct为第t轮的上下文向量;
所述的步骤31)中,在编码器的嵌入层额外增加一维向量,用以区分一般单词和标记符;
32)将预处理后的语料作为神经网络模型的输入并进行训练得到网络参数;
4)将测试文本输入训练好的神经网络模型中,输出含有可能含有标记符的文本;
5)基于规则对输出中包含的标记符进行替换,形成最终的对话文本。
2.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法,其特征在于,所述的步骤1)中,包含对话的语料库包括公开的对话语料库、问答系统的语料库以及自行生成的语料,所述的公开的对话语料库为康奈尔大学电影对白语料和Reddit网站语料,所述的自行生成的语料由两个AIML系统相互对话产生。
3.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法,其特征在于,所述的步骤31)中,神经网络模型的隐藏层均采用门控循环单元GRU,编码器中每个隐藏层中门控循环单元的数量与输入语料的长度相同,解码器中每个隐藏层中门控循环单元的数量与输出语料的长度相同,所述的门控循环单元GRU采用更新门和结构门,当第一隐藏层的输入为标记符时,则降低过往隐藏状态信息的比重至一半,用以提高神经网络对于标记符的重视程度,使得标记符作为重要信息之一被记忆下来。
4.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法,其特征在于,所述的步骤31)中,注意力向量vt′的表达式为:
其中,Wc为参数矩阵。
5.根据权利要求1所述的一种基于标记文本和神经网络的对话生成方法,其特征在于,所述的神经网络模型训练的损失函数为Softmax交叉熵,则有:
其中,vi为第i轮的注意力向量,zt′为解码器的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299823.0/1.html,转载请声明来源钻瓜专利网。





