[发明专利]一种文本自动生成方法有效
| 申请号: | 201910243895.4 | 申请日: | 2019-03-28 |
| 公开(公告)号: | CN110619118B | 公开(公告)日: | 2022-10-28 |
| 发明(设计)人: | 于洪涛;曲强;丁悦航;黄瑞阳;李邵梅;高超;李子勇 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 陈勇 |
| 地址: | 450000 河*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 自动 生成 方法 | ||
本发明提供一种文本自动生成方法。该方法包括:步骤1、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量;步骤2、利用训练好的生成网络生成所述隐藏空间向量的合成文本。针对现有技术中的基于自编码器的方法易于训练但生成文本逻辑性差的问题,或者基于生成对抗网络的方法生成文本语句通顺但稳定性差的问题,本发明能够加速生成网络的训练速度,增强训练稳定性,并在一定程度上增强合成文本的文本逻辑性。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本自动生成方法。
背景技术
高效生成类似于人类语言的合成文本是自然语言处理领域的一个重要研究方向,也是人工智能走向成熟的一个重要标志。目前,文本生成技术有很多的应用,例如:文本生成技术可以应用于智能问答与对话、机器翻译等系统,实现更加智能和自然的人机交互;文本生成系统也可以替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻出版行业;该项技术甚至可以用来帮助学者进行学术论文撰写,进而改变科研创作模式。因此,自动生成文本技术对于提升人类生产生活效率,提高人类生活水平具有重要意义。
目前,文本生成方法主要有两类方法。一是基于自编码器的文本生成方法,主要利用编码器输入的真实文本和解码器输出的真实文本的一致性约束条件来生成文本;二是基于对抗生成网络的文本生成方法,主要利用生成网络与判别网络的博弈对抗来生成文本。第一类方法训练方法简单,计算复杂度低,但是生成的文本逻辑性较差,不符合人类认知;第二类方法生成的文本逻辑性较强,语句通顺,符合人类认知,但是训练稳定性差,难度大。
中国专利CN108334497A公开了一种自动生成文本的方法和装置,该方法为提升文本生成效果,以循环神经网络作为基础,在上面融合了变分自编码器,并使用了生成对抗网络的思想,运用卷积神经网络作为判别器,使用强化学习来进行训练。但是,该方法将变分自编码器融入生成网络,使得生成对抗网络训练计算复杂度较高,难度较大。并且生成对抗网络采用的循环神经网络容易产生梯度爆炸问题,训练不稳定。
发明内容
针对现有文本生成方法中存在的生成的文本逻辑性较差或者生成的文本逻辑性较强但是训练过程复杂、稳定性差以及难度较大的问题,本发明提供一种文本自动生成方法。
本发明提供的一种文本自动生成方法,包括以下步骤:
步骤1、利用预训练好的自编码器得到待处理真实文本的隐藏空间向量;
步骤2、利用训练好的生成网络生成所述隐藏空间向量的合成文本。
进一步地,所述自编码器包括:编码器与解码器;相应地,所述自编码器的预训练过程包括:
步骤a1、利用编码器将真实数据集中的训练用真实文本映射到隐藏空间中得到隐藏向量;
步骤a2、利用解码器将编码器得到的隐藏向量映射到训练用真实文本;
步骤a3、将输入至编码器的训练用真实文本与解码器恢复的训练用真实文本进行一致性保持,得到真实数据集的隐藏空间BM。
进一步地,所述生成网络的训练过程包括:
步骤b1、随机初始化生成网络的参数θ和判别网络的参数φ;
步骤b2、从真实数据集随机抽取一训练用真实文本,利用预训练好的自编码器得到训练用真实文本的隐藏空间向量;
步骤b3、根据训练用真实文本的隐藏空间向量,利用生成网络生成训练用真实文本的合成文本;
步骤b4、从真实数据集再次随机抽取一训练用真实文本,将再次抽取的训练用真实文本和步骤b3中的合成文本输入到判别网络进行文本分类;
步骤b5、将判别网络的分类结果作为奖励值,依次更新判别网络与生成网络的模型参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910243895.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词提取方法和装置
- 下一篇:文本智能编辑方法、装置及计算机可读存储介质





