[发明专利]自动生成文本的方法和装置在审
| 申请号: | 201810119213.4 | 申请日: | 2018-02-06 |
| 公开(公告)号: | CN108334497A | 公开(公告)日: | 2018-07-27 |
| 发明(设计)人: | 秦曾昌;万涛;王恒 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 于鹏 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 自动生成 循环神经网络 编码器 卷积神经网络 自然语言处理 方法和装置 数据预处理 对抗训练 模型构建 模型验证 强化学习 数据获取 网络训练 文本生成 判别器 对抗 变差 融合 全局 网络 学习 | ||
1.一种自动生成文本的方法,其特征在于,所述方法包括:
对获取的文本数据集基于构建模型的应用阶段进行划分;
根据训练目标信息构造出带潜变量的生成对抗网络模型,并对所述生成对抗网络模型中的损失函数进行定义;
对所述生成对抗网络模型进行预训练;
使用预训练好的参数进行模型初始化,并对所述生成对抗网络模型进行对抗训练;
通过对所述生成对抗网络模型进行对抗训练后获取训练完成的生成器中的大数据样本,计算生成的所述大数据样本与测试集之间的bleu分数。
2.根据权利要求1所述的方法,其特征在于,还包括:调用多个自然语言文本数据集,将多个所述自然语言文本数据集定义为所述文本数据集,以及
将多个所述自然语言文本数据集中的文本通过预处理转化为训练带潜变量的生成对抗网络的所需要的形式。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
对原始的文本进行分词;
对所有词进行统计,按照词频由高到低进行排序,建立词表;
对所有句子的长度进行统计,选择一个合适的句子的最大长度L1,以实现预设部分的文本信息到达预设完整度;
对输入的数据进行长度调整,对于长度大于L1的句子,进行截取为长度L1,对于长度小于最大长度的句子,进行填充符的填充操作,其中,所述填充符为预先设定,在整个文本处理过程中,每句句首和句尾都添加有开始符和结束符,若长度小于预设最大长度,则在所述结束符前填充所述填充符;
对所有的句子进行随机打乱,然后按照9:1划分成训练集和测试集,其中,所述训练集为参与训练的样本,所述测试集用于作为模型的评测数据集;
根据所述词表,将训练数据中的所有的词替换成数字形式;其中,所述词表中设置有一个预设词表大小v1,所有数字大于v1的词,通过unk符号来进行替代,所述unk符号为预设符号,用于替换超过词表大小的词。
4.根据权利要求1所述的方法,其特征在于,所述对获取的文本数据集基于构建模型的应用阶段进行划分,包括:对获取的所述文本数据集基于构建所述模型的应用阶段划分为训练数据集与验证数据集,其中,所述训练数据集用于构建所述模型的训练阶段,所述验证数据集用于构建所述模型的验证阶段。
5.根据权利要求1所述的方法,其特征在于,所述根据训练目标信息构造出带潜变量的生成对抗网络模型,包括:
将输入的数据经过一层线性映射的神经网络,将每个词对应的数字ID转化为词向量表示形式;
将获取到的所述词向量的形式,通过一个循环神经网络的处理,提取句子中词之间的语义特征,其中,所述循环神经网络为长短时记忆网络,且所述长短时记忆网络为双层的所述循环神经网络,且使用残差连接;
将所述循环神经网络输出的特征信息,经过一个变分自编码器结构,通过上个时刻的特征学习到潜变量的先验分布,通过当下时刻的特征以及当前的输入,学习到潜变量的后验分布的近似,其中,所述先验分布和后验分布均假设服从高斯分布,通过神经网络学习方式获取的高斯分布的均值和方差;
从所述后验分布中进行采样,通过采样得到的潜变量对应的向量预测下个时刻的目标输出。
6.根据权利要求1所述的方法,其特征在于,对所述生成对抗网络模型中的损失函数进行定义,包括:
定义判别器的所述损失函数,其中,所述判别器用于判断输入的文本是属于生成器生成的文本还是原始的文本,作为所述判别器的输入,所述生成器生成的文本和所述原始的文本被赋予不同的标签,在预训练和对抗训练过程中的所述判别器的所述损失函数的形式相同;
定义生成器的预训练过程中的所述损失函数,其中,所述生成器是由循环神经网络和变分自编码器构成,所述循环神经网络获取句子中词之间的语意关系,通过所述变分自编码器进行预测目标输出;
定义所述生成器在对抗训练过程中的所述损失函数,其中,在对抗训练的过程中,所述生成器用于生成真实的样本用于迷惑判别器,所述判别器区分时错误率与所述生成器训练效果成正比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810119213.4/1.html,转载请声明来源钻瓜专利网。





