[发明专利]一种篇章关系可控的文本生成方法和系统有效

专利信息
申请号: 202110021424.6 申请日: 2021-01-08
公开(公告)号: CN112699688B 公开(公告)日: 2022-11-04
发明(设计)人: 鉴萍;陈振威 申请(专利权)人: 北京理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F16/35;G06N3/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 篇章 关系 可控 文本 生成 方法 系统
【说明书】:

发明公开了一种篇章关系可控的文本生成方法和系统,属于自然语言处理应用技术领域。首先利用预训练语言模型对含有篇章关系PDTB语料进行预训练,构造四分类模型。对文本生成语料进行分类,得到其对应的篇章关系类型。将上文的词语向量,送入到Encoder,训练Bi‑LSTM编码特征表示,得到上文状态向量。之后,将语义向量和上下文篇章关系的信息拼接得到语义向量,通过全连接层,采样得到隐变量,让其服从正态分布。利用Decoder对隐变量z进行解码,引导往预先篇章关系信息的文本方面进行生成,对生成的文本和真实文本进行交叉熵损失计算,使用梯度下降方法更新参数,调到最优的模型。利用最优模型能够续写出下文。本发明能够有效提升文本生成的连贯性。

技术领域

本发明涉及一种篇章关系可控的文本生成方法和系统,属于自然语言处理应用技术领域。

背景技术

自然语言生成是一种语言技术,其主要目的是构建能够“流畅写”的软件系统,即能够用汉语、英语等其他人类语言生成解释、摘要、叙述等。具体而言,就是利用计算机“编写语言”,生成一系列有效文本,以人类语言形式表达。即,能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本,符合人类语言的正确表达习惯。

随着人工智能前沿技术的发展,越来越多的学者希望机器能够具备这样的文字撰写能力,帮助解决人们的写作能力。但是,文本生成系统如何能够生成更通顺流利的文章,内容要有起承转合的形式,甚至还需要篇章关系分析方面的知识和更高阶的认知能力。

文本生成任务是:输入一些必要的上文信息,然后得到满足要求、有效可行的下文信息。目前,技术人员针对先前的文本生成任务已有充分的研究,基本的seq2seq模型框架为:编码器encoder端的输入为结构化或者半结构化的数据信息,解码器decoder端的输入为encoder端输入信息所对应的文本信息,也可简单的理解为序列标签信息。其中,encoder负责将输入编码成一条语义向量C,然后语义向量C作为decoder的初始状态参与decoder进行解码生成文本的过程。众所周知,人类之所以能够较好地撰写流畅的文本,其不仅通过上下文获取连贯的相关信息,还会加入一些篇章关系连接词以保持句子间的连贯。

目前,篇章关系分析是自然语言处理的一个核心问题。篇章是指由一系列连续子句、句子或语段构成的语言整体,篇章关系是指同一篇章中相邻的句子之间的语义连接关系,如因果关系、转折关系等。

然而,现有的文本生成模型却忽略了这些至关重要的因素,并没有充分利用这些篇章知识来辅助机器进行文本生成的过程。

具体而言,文本生成领域存在下述问题:

(1)普通的深度学习方法没有考虑到结合篇章关系这一语言学信息来辅助机器文本生成;

(2)现有的方法并未考虑文本上下文之间的连贯问题。

发明内容

本发明的目的是为了克服现有技术存在的缺陷,为解决文本生成面临的技术问题,提出一种篇章关系可控的文本生成方法和系统。

本发明的创新点在于:

首先,利用预训练语言模型Bert-base对含有篇章关系PDTB语料进行预训练,构造四分类模型。

然后,对文本生成语料进行分类,得到其对应的篇章关系类型。其次,将上文的词语向量,送入到Encoder,训练Bi-LSTM编码特征表示,得到上文状态向量h。

之后,将语义向量h和上下文篇章关系的信息d拼接得到语义向量C,通过全连接层,采样得到隐变量z,让其服从正态分布。

最后,利用Decoder对隐变量z进行解码,引导往预先篇章关系信息的文本方面进行生成,对生成的文本和真实文本进行交叉熵损失计算,使用梯度下降方法更新参数,调到最优的模型。

本发明是采用以下技术方案实现的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110021424.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top