[发明专利]文本生成方法、装置、设备及存储介质在审
申请号: | 202210402816.1 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114912439A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 金力;李晓宇;孙显;刘那与;刘庆;董鹏程 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06N3/04;G06N3/08 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 樊晓 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 设备 存储 介质 | ||
本公开提供了一种文本生成方法,该方法包括:对标题进行预处理,得到带有位置信息的特征向量序列;以及将带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,其中,新生成文本包括与标题相关的内容;其中,自回归语言模型包括多层堆叠的自回归解码器,自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。本公开还提供了一种文本生成装置、设备、存储介质和程序产品。
技术领域
本公开涉及文本生成的领域,尤其涉及一种文本生成方法、装置、设备、存储介质和程序产品。
背景技术
自然语言处理技术的发展,给人类社会带来了巨大的便捷。通过计算机完成对文本的自动分类、标注、编辑、创作,可以减轻人类重复单调的工作负担,辅助或提高工作效率。其中,自然语言生成,作为自然语言处理的一项核心任务,也被关注和研究。例如,编码-解码模型在翻译、对话、摘要文本生成上取得了显著的进展,其主要利用编码器将输入序列转变成一个固定长度的向量,再用解码器将之前生成的固定长度的向量转化成输出序列。
发明内容
鉴于上述问题,本公开提供了一种文本生成方法、装置、设备、存储介质和程序产品。
根据本公开的第一个方面,提供了一种文本生成方法,包括:对标题进行预处理,得到带有位置信息的特征向量序列;以及
将带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,其中,新生成文本包括与标题相关的内容;
其中,自回归语言模型包括多层堆叠的自回归解码器,自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。
根据本公开的实施例,将带有位置信息的特征向量序列输入到自回归语言模型中,得到新生成文本,包括:
将带有位置信息的特征向量序列输入到带掩码的自注意力层中,得到上下文特征向量序列;
将上下文特征向量序列和带有位置信息的特征向量序列输入到第一残差层中,得到第一残差层处理特征向量序列;
将第一残差层处理特征向量序列输入至第一归一化层中,得到第一归一化层处理特征向量序列;
将第一归一化层处理特征向量序列输入到前馈层中,得到重构的特征向量序列;
将重构的特征向量序列和第一归一化层处理特征向量序列输入到第二残差层中,得到第二残差层处理特征向量序列;
将第二残差层处理特征向量序列输入至第二归一化层中,得到第二归一化层处理特征向量序列;
将第二归一化层处理特征向量序列输入至激活层,得到新生成文本。
根据本公开的实施例,对标题进行预处理,得到带有位置信息的特征向量序列,包括:
获取标题;
将标题映射为数值序列;
基于数值序列,生成特征向量序列;
将特征向量序列与位置向量序列相加,得到带有位置信息的特征向量序列。
本公开的第二方面提供了一种用于文本生成的模型训练方法,该方法包括:
获取训练样本,其中,训练样本包括样本标题和样本内容;
利用训练样本训练待训练的自回归语言模型,得到自回归语言模型;
其中,自回归语言模型包括多层堆叠的自回归解码器,自回归解码器包括级联的带掩码的自注意力层、第一残差层、第一归一化层、前馈层、第二残差层、第二归一化层和激活层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210402816.1/2.html,转载请声明来源钻瓜专利网。