[发明专利]一种基于范例学习的文本摘要生成框架及方法在审

专利信息
申请号: 202110885791.0 申请日: 2021-08-03
公开(公告)号: CN113673241A 公开(公告)日: 2021-11-19
发明(设计)人: 邱锡鹏;安晨鑫;钟鸣;耿志超;杨非;俞再亮 申请(专利权)人: 之江实验室;复旦大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/211;G06N3/04;G06N3/08
代理公司: 杭州浙科专利事务所(普通合伙) 33213 代理人: 杨小凡
地址: 310023 浙江省杭州市余*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 范例 学习 文本 摘要 生成 框架 方法
【权利要求书】:

1.一种基于范例学习的文本摘要生成方法,其特征在于包括如下步骤:

S1,为待生成摘要的源文档,检索出一组用于参考的范例摘要;

S2,基于序列到序列框架,使用最大似然损失进行训练,包括如下步骤:

S21,将源文档和范例摘要合并成一个序列;

S22,通过极大似然估计,使用前t-1个标准摘要的真值词来预测第t个词,极大似然估计训练的损失函数:

其中P()表示第t步解码在词表上的概率分布,表示第t步解码输出的隐向量,W表示词表大小*隐向量维度的可学习矩阵,X表示源文档,E表示范例摘要,yt表示摘要中的第t个词,y<t表示第t步解码之前已经生成的词,n表示句子长度;

S3,基于训练好的序列到序列框架,预测摘要,包括如下步骤:

S31,将源文档和范例摘要合并成一个序列;

S32,通过极大似然估计,使用前t-1个预测词来预测第t个词,得到对数似然得分:

S33,采用集束搜索算法,每次预测保留一组词,接着往下预测,形成的不同路径作为候选范例摘要,即束,将第k个束的对数似然得分MLEk,加入文本摘要评价指标奖励分,在集束搜索中,每生成n个词后,根据解码端对编码端范例摘要的注意力得分,选取被关注最多的范例摘要,并增大与所述关注最多的范例摘要相似的束的束得分;

S34,选择得分最高的候选摘要作为最终的摘要。

2.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S33中,被关注最多的范例摘要exemplar1,计算第k个束和exemplar1的文本摘要评价指标的得分rougek,文本摘要评价指标奖励分:

Creditk=rougek*g(t)

其中为一个与解码步数t有关的函数,ls为超参数,当解码步数t大于ls,开始使用奖励分,最终的束得分:

scorek=MLEk+Creditk

其中n表示句子长度,yi表示摘要中的第i个词,y<i表示第i步之前已经生成的词,X表示源文档,E表示范例摘要。

3.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S1中,将源文档中抽取的抽取式摘要,与训练集摘要计算文本摘要评价指标,根据文本摘要评价指标的得分高低,选取一组训练集摘要,与源文档进行相似度比较,训练检索相似范例摘要的能力,在预测阶段,选取相似度最高的一组范例摘要。

4.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于从训练集摘要中,划分出正样本和负样本,所述相似度比较,采用基于多头的余弦相似度计算:

其中分别为正、负样本的得分,X表示源文档,Y表示训练集摘要,i表示第i个负样本,j表示第j个正样本,表示源文档X的隐向量,表示正/负样本的隐向量,对比学习损失函数将所有头相加:

其中H表示头的数量,|C+|、|C-|分别表示正、负样本集的大小,τ表示一个温度参数,exp()表示期望函数,在预测阶段根据所有头的投票,选择相似度高的范例摘要。

5.根据权利要求2所述的一种基于范例学习的文本摘要生成方法,其特征在于根据文本摘要评价指标的高低,选取一组候选训练集摘要,再将候选训练集摘要,根据文本摘要评价指标的高低,划分正、负样本。

6.根据权利要求1所述的一种基于范例学习的文本摘要生成方法,其特征在于所述S2中,引入对齐机制,通过标签嵌入,使范例摘要的第i句话和目标摘要的第i句话具有相同的标签Gi,在解码端训练过程中,注意编码端带有相同标签的词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;复旦大学,未经之江实验室;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110885791.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top