[发明专利]一种基于BERT预训练模型的文本摘要生成方法有效
| 申请号: | 202110287084.1 | 申请日: | 2021-03-17 |
| 公开(公告)号: | CN113128214B | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 文凯;周玲玉;杨航;王宗文 | 申请(专利权)人: | 重庆邮电大学;重庆信科设计有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
| 地址: | 400065 重*** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 训练 模型 文本 摘要 生成 方法 | ||
1.一种基于BERT预训练模型的文本摘要生成方法,其特征在于,包括以下步骤:
步骤一:对文本数据集进行去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理;
步骤二:对预处理后的数据进行BERT预训练;
步骤三:将BERT预训练得到的句向量转化成词向量;
步骤四:对LeakGAN模型进行优化,判别器中加入注意力机制,将词向量输入加入了注意力机制的LeakGAN模型进行训练,生成摘要;
判别器的训练过程是有监督的训练,通过对生成器Gθ采样获得生成数据集SG,真实数据集为S,将生成数据和真实数据标签化后,训练判别器;
训练的目标函数如下:
其中,表示的是输入序列是真标签的概率值,在固定判别器训练生成器的时候,要求真实数据输出的概率尽可能的接近1,生成数据输出的概率尽可能接近0;
在生成器的训练中,判别器的行为有:
sigmoid(z)=(1/1+e-z),是判别器的特征提取层输出的高维特征向量,s是生成序列;
当生成器准备生成下一个词的时候,生成器会把当前生成的部分序列,使用蒙特卡洛树搜索补充为完整的输入序列s,传递给判别器,帮助Manager模块获得指导下一个词生成的高维特征向量;
判别器获得输入序列s后,在经过特征提取层后,得到高维特征向量,然后,判别器不仅把高维特征向量传递到下一步的分类层,还将高维特征向量反馈给生成器的Manager模块用来指导文本生成;
之后当高维特征向量传递到分类层后,还会向生成器反馈一个奖励值标量,表明当初生成词的好坏,用来生成器的参数优化:
yt表示当前生成的序列,Y1:t-1表示之前生成的序列,MCG(Y1:T;N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列;
使用全零的隐藏状态初始化Manager模块和Worker模块的和接下来的每一时间步,Manager模块结合当前的隐藏状态和判别器传递的特征向量ft输出目标向量gt:
GM(·)表示模块的LSTM网络结构,hM表示Manager模块LSTM网络的每个时间步的隐藏状态,θM表示Manager模块LSTM网络的相关参数,at表示Manager模块LSTM网络的每个时间步的输出;
对Manager模块输出的目标向量做线性变换操作,于是对最近输出的n个目标向量gt先进行和操作,然后使用权重矩阵Wc做线性变换,最后输出k维的目标嵌入向量vt:
Manager模块输出的目标嵌入向量vt传递给Worker模块,并与Worker模块LSTM网络的输出向量Ot做点乘操作,然后把点乘的结果输入到softmax函数进行归一化操作,输出一个字典大小的分布;
Gθ(·|St)=softmax(Ot·vt) (9)
GW(·)表示Worker模块的LSTM网络结构,xt代表当前的词,hW表示Worker模块LSTM网络的隐藏状态,θW代表Worker模块LSTM网络的相关参数,Ot表示Worker模块LSTM网络的输出向量,大小为|V|×k的矩阵,St表示当前生成的部分序列;
生成器继续通过蒙特卡洛树搜索将当前生成的部分序列补充完整,传递给判别器对当前生成的单词进行评分同时也会得到指导接下来生成过程的高维特征向量,进行下一个词的生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;重庆信科设计有限公司,未经重庆邮电大学;重庆信科设计有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110287084.1/1.html,转载请声明来源钻瓜专利网。





