[发明专利]一种融合主题的PGN-GAN文本摘要模型在审
申请号: | 202110646495.5 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113360601A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 郭继峰;费禹潇;吕帅;孙文博 | 申请(专利权)人: | 东北林业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F40/242;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 主题 pgn gan 文本 摘要 模型 | ||
本发明涉及一种融合主题的PGN‑GAN摘要生成方法,为了能够生成更加贴近主题信息和源文本的摘要,本发明在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合指针网络和GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成。本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义。
技术领域:
本发明涉及自然语言处理领域,尤其涉及一种融合主题的PGN-GAN摘要生成方法。
背景技术:
随着近年来互联网文本信息的爆发式增长,极大的增加了阅读的困难,从繁杂的文本中提取有用的信息变得越显得格外重要,因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求。
在先前的工作中,有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息,随着LDA技术的不断成熟,主题模型除了用在分类预测的方面也更多的应用在文本摘要方面的工作。
现阶段文本摘要技术大致分为两类,抽取式摘要与生成式摘要,抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子,生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要,但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题。目前解决以上问题的主流思想是指针生成网络。
随着生成对抗网络在图像领域的广泛应用,GAN也被尝试应用在了文本生成中。本文使用生成器G来生成文本,并利用鉴别器D作为文本的分类器,D 的主要作用是鉴别文本是由机器生成还是人为生成。G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本。
为了能够生成更加贴近主题信息和源文本的摘要,本发明在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成。
本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义。
发明内容:
本发明的目的是克服现有方法的不足,提出一种结合指针网络同生成对抗网络的摘要生成方法,特别是涉及一种融合主题信息的摘要生成方法,以弥补摘要生成中主题信息确实的问题。
1.一种融合主题的PGN-GAN文本摘要模型,其特征在于,包括如下步骤:
步骤1:给定文本集合中的每篇文档,利用隐狄利克雷模型得到主题词和主题文档分布。
步骤2:在主题分布中选取前k个作为主题词,得到主题词向量。
步骤3:将普通编码器的最终隐藏层状态作为主题注意力层的输入,形成复合注意力。
步骤4:生成器将源文本和主题词作为输入,在经过带有复合注意力机制的编码器后将x转变为隐藏状态,搭建指针生成网络和生成对抗网络,鉴别器用来区分文本是机器生成的还是真实样本。
步骤5:将输出向量传入解码器,通过解码器得到最终生成的文本。
2.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型,其特征在于,所述步骤1包括如下步骤:
步骤1.1:给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θm作为主题——文档分布
步骤1.2:每个主题t,依据以β为参数的狄利克雷分布得到分布即主题词分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110646495.5/2.html,转载请声明来源钻瓜专利网。