[发明专利]自动生成文本的方法和装置在审
| 申请号: | 201810119213.4 | 申请日: | 2018-02-06 |
| 公开(公告)号: | CN108334497A | 公开(公告)日: | 2018-07-27 |
| 发明(设计)人: | 秦曾昌;万涛;王恒 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 于鹏 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 自动生成 循环神经网络 编码器 卷积神经网络 自然语言处理 方法和装置 数据预处理 对抗训练 模型构建 模型验证 强化学习 数据获取 网络训练 文本生成 判别器 对抗 变差 融合 全局 网络 学习 | ||
本发明公开了一种自动生成文本的方法,包括以下步骤:数据获取;数据预处理;模型构建;损失定义;模型预训练;模型对抗训练模型验证。本发明结合循环神经网络和变分自编码器,以及加上对抗网络训练模式,使得生成的文本既避免了随着长度变长,文本质量变差的问题,也避免文本生成单一的问题。该方法应用了在自然语言处理领域常用的循环神经网络作为基础,在上面融合了变分自编码器,能够更好地学习到文本的分布。后期的效果提升,使用了生成对抗网络的思想,运用卷积神经网络作为判别器,使用了强化学习来进行训练,在全局上对模型进行训练,达到更好的效果。本发明还公开了一种自动生成文本的装置。
技术领域
本发明涉及计算机自然语言处理技术领域,特别是涉及一种自动生成文本的方法和装置。
背景技术
文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智能走向成熟的一个重要标志。我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。对于文本生成的应用,在生活中十分广泛,首先可以分成监督式和无监督式的文本生成。对于监督的文本生成,例如机器翻译、智能问答系统、对话系统以及文本摘要。对于无监督的文本生成,通过学习到数据的原本分布,然后可以生成与原本数据类似的样本,例如诗歌创作、音乐创作等。利用文本生成,我们可以实现更加智能和自然的人机交互,我们也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布。
开始,使用循环神经网络语言模型来进行文本生成,使用的是最大似然估计来进行训练的,生成的文本会有一个问题,就是在文本生成的过程中,句子长度越长,句子质量越差。后面就有使用强化学习和对抗网络来进行文本生成的问题,解决了这个问题,虽然改进之后,可以生成质量比较高的文本,但是生成的文本比较单一。有鉴于此,有必要针对文本生成单一的问题,研发一种新的文本生成的方法。
发明内容
基于此,有必要针对传统技术存在的问题,提供一种自动生成文本的方法和装置,该方法应用了在自然语言处理领域常用的循环神经网络作为基础,在上面融合了变分自编码器,能够更好地学习到文本的分布。后期的效果提升,使用了生成对抗网络的思想,运用卷积神经网络作为判别器,使用了强化学习来进行训练,在全局上对模型进行训练,达到更好的效果。
第一方面,本发明实施例提供了一种自动生成文本的方法,所述方法包括:对获取的文本数据集基于构建模型的应用阶段进行划分;根据训练目标信息构造出带潜变量的生成对抗网络模型,并对所述生成对抗网络模型中的损失函数进行定义;对所述生成对抗网络模型进行预训练;使用预训练好的参数进行模型初始化,并对所述生成对抗网络模型进行对抗训练;通过对所述生成对抗网络模型进行对抗训练后获取训练完成的生成器中的大数据样本,计算生成的所述大数据样本与测试集之间的bleu分数。
在其中一个实施例中,还包括:调用多个自然语言文本数据集,将多个所述自然语言文本数据集定义为所述文本数据集,以及将多个所述自然语言文本数据集中的文本通过预处理转化为训练带潜变量的生成对抗网络的所需要的形式。
在其中一个实施例中,还包括:对原始的文本进行分词;对所有词进行统计,按照词频由高到低进行排序,建立词表;对所有句子的长度进行统计,选择一个合适的句子的最大长度L1,以实现预设部分的文本信息到达预设完整度;对输入的数据进行长度调整,对于长度大于L1的句子,进行截取为长度L1,于长度小于最大长度的句子,进行填充符的填充操作,其中,所述填充符为预先设定,在整个文本处理过程中,每句句首和句尾都添加有开始符和结束符,若长度小于预设最大长度,则在所述结束符前填充所述填充符;对所有的句子进行随机打乱,然后按照9:1划分成训练集和测试集,其中,所述训练集为参与训练的样本,所述测试集用于作为模型的评测数据集;根据所述词表,将训练数据中的所有的词替换成数字形式;其中,所述词表中设置有一个预设词表大小v1,所有数字大于v1的词,通过unk符号来进行替代,所述unk符号为预设符号,用于替换超过词表大小的词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810119213.4/2.html,转载请声明来源钻瓜专利网。





