[发明专利]一种基于Transformer的引导性文本摘要生成方法有效

专利信息
申请号: 202010740782.8 申请日: 2020-07-28
公开(公告)号: CN111897949B 公开(公告)日: 2021-10-26
发明(设计)人: 刘磊;孙应红;侯良文;李静 申请(专利权)人: 北京工业大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/126;G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 吴荫芳
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 transformer 引导 文本 摘要 生成 方法
【权利要求书】:

1.一种基于Transformer的引导性文本摘要生成方法,Transformer模型包括编码器Encoder和解码器Decoder,其中解码器Decoder包含注意力机制,其特征在于:对注意力机制进行了修正,并增加了指针机制,包括三个阶段,即数据预处理、模型训练、摘要生成,具体如下:

数据预处理阶段

步骤1提取文本关键语义特征向量K′

步骤1.1关键词获取,计算文本中每个词的重要性,按重要性降序排列,并提取出前N个对应单词作为的文本关键词集合,记作Set1={a1,a2,…,aN};

步骤1.2关键语义特征提取:首选对文本进行命名实体识别,提取出文本中所含有的实体,记作集合Set2={b1,b2,…,bq};然后将Set1与Set2取并集,得到原文本的关键语义特征单元,记作Set={c1,c2,…,cT};最后对Set中的每个词ci依据其在原文本中的位置进行排序并得到文本关键语义特征KI,记作:其中表示第i个关键语义特征单元,T表示关键语义特征中所含单词个数;

步骤1.3将关键语义特征向量化:

首先获取关键语义特征对应的词嵌入矩阵,记作:

K=(k1,k2,…,kT),

然后将其输入BiLSTM网络来获取的语义特征向量其中与分别表示正向与反向的最后一个时刻的隐藏状态输出;

步骤2对于长度大于阈值L的文本,通过提取关键句,将长文本转换为短文本:

原文本记为Article=(sentence1,sentence2,…,sentencen),sentencei表示原文本的第i个句子(1≤i≤n),n表示原文本所含有的句子总数,对Article中的每个句子进行重要性评估,并按重要性降序排列得到Article′=(sentence′1,sentence′2,…,sentence′n),取Article′中前k个最重要句子,保证前k个句子的总长度不大于L,并按照句子在原文本中的出现顺序重新排序;

模型训练阶段

训练数据包括训练文本以及对应的参考摘要;

步骤3利用编码器Encoder得到训练文本的语义编码H;

首先,训练文本经过步骤2得到短文本,并以词为单位表示为T′=(w1,w2,…,wm),其中wi为文本序列的第i个词(1≤i≤m);然后利用词嵌入BERT模型将文本序列映射到词嵌入空间,得到每个词wi的词向量xi,此时文本序列T′表示为X=(x1,x2,…,xm);然后将文本序列X输入Transformer模型的编码器来获取最后的隐藏输出,即H=TransformerEncoder(X);

步骤4利用词嵌入BERT模型获取训练文本对应的参考摘要的词嵌入表示Y=(y1,y2,…,yn),yi(1≤i≤n)表示参考摘要的第i个词对应的词嵌入表示,n表示参考摘要中所含单词个数;将Y输入到Transformer模型的解码器,获取解码器第一次残差连接,归一化得到向量Ht,即Ht=TransformerDecoder(Y);

步骤5利用关键语义特征修正Attention权值

先计算矩阵Q,K,V:Q=WQHt,其中WQ为待训练参数,Ht为步骤4得到的归一化后向量;K=WKH,V=WVH,其中WK,WV为待训练参数,H为步骤3得到的文本语义编码;

再利用如下公式计算修正Attention权值,计算文本T′中每个词的注意力分布:

Attention(Q,K,V)=softmax(E)V (公式2)

其中,是由文本T′的m个关键语义特征K′构成的矩阵的转置,可表示为dk表示Q,K矩阵的列数;

预测第t时刻的词,则将Attention(Q,K,V)的值作为第t时刻的上下文向量Ct

步骤6基于关键语义特征修正指针机制,预测单词,具体如下:

首先,由已计算的上下文向量Ct,文本T′的关键语义特征K′,以及解码器当前时刻的解码状态St,构造一个摘要生成开关Pgen,具体计算公式如下:

其中:b为待训练参数,σ表示Sigmoid函数;

然后,通过Pgen重新构造概率分布P(w),并通过计算概率分布P(w),确定预测摘要中的第t个单词,P(w)计算公式如下:

其中,Pvocab(w)表示词库中单词w作为摘要中第t个单词的预测概率,由softmax函数进行计算,是上下文向量Ct,解码状态St的转置拼接,V和b是待训练参数,当单词w不在词库中时,Pvocab(w)=0;表示关于单词w的注意力求和,其中ai是注意力向量a中的第i个值,当单词w不在输入文本中时,摘要生成开关Pgen用于Pvocab(w)和的权重调节;

步骤7构造每个时刻的损失函数,当损失函数达到最小值,或满足迭代次数,模型中的参数都得到训练,得到训练好的摘要生成模型,记作TransTS;

摘要生成阶段

步骤8对需要生成文本摘要的文本T,通过步骤2获取T的短文本T′;以T′作为模型TransTS的输入,经过模型TransTS的处理,输出为由预测单词组成的文本T的文本摘要;

TransTS的内部处理过程与模型训练类似,区别在于TransTS模型中的参数都已经得到训练,过程包括:首先用词嵌入BERT模型将T′映射到词嵌入空间,通过TransTS的编码器Encoder,得到T′的语义编码;然后用词嵌入BERT模型将T映射到词嵌入空间,通过TransTS的解码器,获取经过第一次残差连接,归一化后得到向量Ht;再利用T′的关键语义特征,通过公式(2)(3),计算文本T′中每个词的注意力分布,修正Attention权值,得到第t时刻的上下文向量Ct;最后由公式(4)(5),计算预测词的概率分布P(w),确定预测摘要中的第t时刻的单词;

通过上一时刻的输出作为当前时刻的输入,不断重复解码过程来预测当前时刻的词,直到出现结尾标识符,即可完成对摘要所有单词的预测,得到文本T的文本摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010740782.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top