[发明专利]文本生成方法、装置、设备及存储介质在审
申请号: | 202210402816.1 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114912439A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 金力;李晓宇;孙显;刘那与;刘庆;董鹏程 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06N3/04;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 樊晓 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 设备 存储 介质 | ||
1.一种文本生成方法,包括:
对标题进行预处理,得到带有位置信息的特征向量序列;以及
将所述带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,其中,所述新生成文本包括与所述标题相关的内容;
其中,所述自回归语言模型包括多层堆叠的自回归解码器,所述自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。
2.根据权利要求1所述的方法,其中,所述将所述带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,包括:
将所述带有位置信息的特征向量序列输入到带掩码的自注意力层中,得到上下文特征向量序列;
将所述上下文特征向量序列和所述带有位置信息的特征向量序列输入到所述第一残差层中,得到第一残差层处理特征向量序列;
将所述第一残差层处理特征向量序列输入至所述第一归一化层中,得到第一归一化层处理特征向量序列;
将所述第一归一化层处理特征向量序列输入到所述前馈层中,得到重构的特征向量序列;
将所述重构的特征向量序列和所述第一归一化层处理特征向量序列输入到所述第二残差层中,得到第二残差层处理特征向量序列;
将所述第二残差层处理特征向量序列输入至所述第二归一化层中,得到第二归一化层处理特征向量序列;
将所述第二归一化层处理特征向量序列输入至激活层,得到所述新生成文本。
3.根据权利要求1所述的方法,其中,所述对所述标题进行预处理,得到带有位置信息的特征向量序列,包括:
获取所述标题;
将所述标题映射为数值序列;
基于所述数值序列,生成特征向量序列;
将所述特征向量序列与位置向量序列相加,得到所述带有位置信息的特征向量序列。
4.一种用于文本生成的模型训练方法,包括:
获取训练样本,其中,所述训练样本包括样本标题和样本内容;
利用所述训练样本训练待训练的自回归语言模型,得到自回归语言模型;
其中,自回归语言模型包括多层堆叠的自回归解码器,所述自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。
5.根据权利要求4所述的方法,其中,所述利用所述训练样本训练待训练的自回归语言模型,得到自回归语言模型包括:
对所述训练样本标题进行预处理,得到带有位置信息的样本特征向量序列;
将所述带有位置信息的样本特征向量序列输入至所述待训练的自回归语言模型中,得到预测文本;
利用所述预测文本和所述样本内容训练所述待训练的自回归语言模型,得到所述自回归语言模型。
6.根据权利要求4所述的方法,其中,所述对所述训练样本标题进行预处理,得到所述带有位置信息的样本特征向量序列,包括:
获取所述训练样本标题;
将所述训练样本标题映射为样本数值序列;
基于所述样本数值序列,生成样本特征向量序列;
将所述样本特征向量序列与位置向量序列相加,得到带有位置信息的样本特征向量序列。
7.一种文本生成装置,包括:
标题处理模块,用于对标题进行预处理,得到带有位置信息的特征向量序列;
文本生成模块,用于将所述带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,其中,所述新生成文本包括与标题相关的内容;
其中,所述自回归语言模型包括多层堆叠的自回归解码器,所述自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210402816.1/1.html,转载请声明来源钻瓜专利网。