[发明专利]一种基于深度学习的文本生成方法有效
申请号: | 202010652675.X | 申请日: | 2020-07-08 |
公开(公告)号: | CN111858931B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 廖盛斌;余亚斌 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/289;G06F40/284;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 雷霄 |
地址: | 430079 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 生成 方法 | ||
本发明公开了一种基于深度学习的文本生成方法。该方法,包括训练和测试,其特征在于,所述训练包括步骤:构建训练集,所述训练集中包括经过预处理的话题和对应文本组成的多个样本对;预先定义生成器,所述生成器用于根据输入的话题生成文本,利用所述训练集对所述生成器进行预训练,在所述生成器的编码解码中加入注意力机制和新的历史记忆信息模块;预先定义分类器,将所述生成器输出的文本和所述训练集中的文本输入到所述分类器进行对抗训练;根据预训练的所述生成器和所述分类器定义损失函数对所述生成器进行强化学习训练。本发明具有更好的文本生成效果。
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种基于深度学习的文本生成方法。
背景技术
深度学习的出现使得人工智能的发展走上一个新的台阶,并且迅速在学术界和工业界产生深远的影响。基于深度学习的方法在计算机视觉、自然语言处理等领域已经成为一种主流的方法。在自然处理领域基于深度学习的方法也已经取得了很大的进步,比如在机器翻译,人机对话,古诗生成等领域,基于深度学习的方法已经完全超越甚至取代了传统的机器学习方法。
自动写作是一项重要的人工智能技术,利用人工智能进行写作或者辅助创作,为人类提供了新的创作方法与途径,自动写作对于写作的便捷与速度有了很大改善,很大程度上改变了人们日常写作方式。然而以前的自动写作均为基于模板的自动写作,虽然能够快速进行自动写作,但在新颖性和多样上有很大缺陷,难以满足人们对创新性的要求。
经典的基于深度学习的文本生成方法都是基于循环神经网络RNN的人工神经网络模型。将输入信息压缩为固定长度的向量,再使用线性或者非线性的变换,通过神经网络逐句生成文本。该类方法存在一个很明显的缺点,模型把历史记忆信息压缩为相同长度的状态向量,并且每个词只考虑到上一个词传递过来的历史信息,这样导致了历史信息存在丢失严重问题,所以后面生成的文本质量会越来越差。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于深度学习的文本生成方法,具有更好的文本生成效果。
为实现上述目的,本发明提供了一种基于深度学习的文本生成方法,包括训练和测试,所述训练包括步骤:
构建训练集,所述训练集中包括经过预处理的话题和对应文本组成的多个样本对;
预先定义生成器,所述生成器用于根据输入的话题生成文本,利用所述训练集对所述生成器进行预训练,所述生成器包括编码器和解码器,所述编码器用于将输入的话题编码为词向量,所述解码器为使用循环神经网络的长短时记忆网络,所述长短期记忆网络的初始状态向量使用随机初始化的向量,所述长短期记忆网络的输入包括上一个时间步的真实输出、注意力机制得到的话题向量和全局历史记忆向量;
预先定义分类器,将所述生成器输出的文本和所述训练集中的文本输入到所述分类器进行对抗训练;
根据预训练的所述生成器和所述分类器定义损失函数对所述生成器进行强化学习训练。
优选地,所述预处理包括:对样本集中的文本进行关键词分词,使用tf-idf算法计算所有关键词的tf-idf得分,选取得分最高的多个关键词作为每个文本的话题。
优选地,所述全局历史记忆向量根据历史记忆矩阵得到,所述历史记忆矩阵由长度为L的向量组成,所述历史记忆矩阵最开始全部初始化为0,在训练过程中动态地存储之前所生成的词向量,在对所述生成器进行训练的过程中,所述历史记忆矩阵不进行参数更新。
优选地,使用门控网络来获取当前所需的所述全局历史记忆向量。
优选地,所述分类器包括依次连接的卷积层、池化层和Highway网络,所述分类器的目标函数使用交叉熵损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010652675.X/2.html,转载请声明来源钻瓜专利网。