[发明专利]文本生成方法、装置、计算机设备及介质在审

专利信息
申请号: 201910067379.0 申请日: 2019-01-24
公开(公告)号: CN109885667A 公开(公告)日: 2019-06-14
发明(设计)人: 毕野;黄博;吴振宇;王建明 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06N3/04
代理公司: 深圳众鼎专利商标代理事务所(普通合伙) 44325 代理人: 黄章辉
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本生成 生成器 文本 判别器 正样本 模型生成 负样本 收敛 计算机设备 模型构建 目标文本 数据集中 真实文本 构建 对抗 更新
【说明书】:

发明属于模型构建领域,公开了一种文本生成方法、装置、设备及介质,该方法包括:从真实文本数据集中获取文本正样本,然后建立初始生成器模型,用文本正样本对初始生成器模型进行预训练得到生成器模型,用生成器模型生成文本负样本;接着建立初始判别器模型,用文本正样本和文本负样本进行预训练得到判别器模型;再让生成器模型与判别器模型不断对抗并更新模型的参数,当判别器模型收敛时,根据收敛时的生成器模型得到文本生成模型;获取待识别文本,并将待识别文本输入至文本生成模型中,基于文本生成模型生成目标文本。本发明的文本生成方法可以提高文本生成模型的构建效率和生成文本的精度。

技术领域

本发明属于模型构建领域,更具体地说,是涉及一种文本生成方法、装置、计算机设备及介质。

背景技术

随着科技的发展,我们希望计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本,而文本自动生成技术就是实现这一目标的关键技术。

目前,常用的方法是利用长短期记忆网络(Long Short-Term Memory Networks,简称LSTM)来进行文本生成,LSTM是递归神经网络(Recurrent/Recursive NeuralNetwork,简称RNN)的一种。其中,训练RNN常用的方式是最大似然估计,即在给定前t-1个单词的情况下,通过最大化第t个单词的对数似然来给出下一个单词。但是,使用RNN的不足在于是会产生逐步递增的偏差,因为在生成一句话的时候,RNN是逐个单词依次生成的,下一单词是在前面单词给定的基础上生成的,这样就导致产生了一个偏差,而且随着序列的长度的增加,偏差也会越来越大。

另外,RNN不能进行自我改进,对于RNN的某些应用,可以加入最小化损失函数来改进模型。但是对于文本生成模型,由于输入的数据为离散型数据,因此没有直接可用的损失函数,没有一种合适方式来指导文本生成模型进行自我改进以获得接近真实的输出。

综上所述,目前用以生成文本的模型的效率较低,亟待找到一种文本生成模型可以较快速、较准确的生成文本。

发明内容

本发明实施例提供一种文本生成方法、装置、计算机设备及存储介质,以解决目前生成文本的效率较低的问题。

一种文本生成方法,包括:

获取真实文本数据集,从所述真实文本数据集中获取文本正样本;

建立初始生成器模型,将所述文本正样本输入至所述初始生成器模型进行预训练,得到生成器模型,并根据所述生成器模型生成第一文本负样本;

建立初始判别器模型,将所述文本正样本与所述第一文本负样本输入至所述初始判别模型中进行预训练,得到判别器模型;

基于所述生成器模型生成测试文本,将所述测试文本输入至所述判别器模型中获取所述测试文本的奖励值,根据所述奖励值计算所述生成器模型的梯度,并根据所述梯度更新所述生成器模型;

根据更新后的所述生成器模型生成第二文本负样本,将所述第二文本负样本与所述文本正样本输入至判别器模型中,根据最小化交叉熵更新所述判别器模型;

交替更新所述生成器模型和所述判别器模型,若所述判别器模型的输出收敛,则根据收敛时的所述生成器模型得到文本生成模型;

获取待识别文本,并将所述待识别文本输入至所述文本生成模型中,基于所述文本生成模型生成目标文本。

一种文本生成装置,包括:

文本正样本获取模块,用于获取真实文本数据集,从所述真实文本数据集中获取文本正样本;

生成器模型获取模块,用于建立初始生成器模型,将所述文本正样本输入至所述初始生成器模型进行预训练,得到生成器模型,并根据所述生成器模型生成第一文本负样本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910067379.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top