[发明专利]基于主题模型的文本摘要方法、装置及存储介质在审
| 申请号: | 202111145727.5 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113901200A | 公开(公告)日: | 2022-01-07 |
| 发明(设计)人: | 范凌;王喆 | 申请(专利权)人: | 特赞(上海)信息科技有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/186;G06F40/211;G06F40/30;G06V10/764 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 李志刚;高科 |
| 地址: | 200000 上海市浦东新区中国*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主题 模型 文本 摘要 方法 装置 存储 介质 | ||
1.一种基于主题模型的文本摘要方法,其特征在于,包括:
基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;
将所述第一中间语义向量输入至主题模型中,得到主题向量;
根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
2.根据权利要求1所述的基于主题模型的文本摘要方法,其特征在于,将所述第一中间语义向量输入至主题模型中,得到主题向量,包括:
根据第一损失函数对所述主题模型进行训练,所述主题模型的第一损失函数如下:
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码器的输入;h是主题模型的中间变量;表示的是拟合正态分布的h概率分布;pθ(h)是编码器端中间变量h的后验概率分布;log pθ(xi|zi,l)表示是以z=f(h)作为输入,重新还原得到x的概率分布的似然估计。
3.根据权利要求2所述的基于主题模型的文本摘要方法,其特征在于,所述将所述第一中间语义向量输入至主题模型中,得到主题向量,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向量。
4.根据权利要求1所述的基于主题模型的文本摘要方法,其特征在于,根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
5.根据权利要求4所述的基于主题模型的文本摘要方法,其特征在于,所述第二损失函数如下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune是seq2seq序列模型的损失函数。
6.根据权利要求4所述的基于主题模型的文本摘要方法,其特征在于,在基于训练后的联合学习网络得到目标摘要信息的过程中,目标摘要信息的生成采用如下公式:
其中LM是language model,TM是topic model,两个部分都有head,表示两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维的维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
7.一种基于主题模型的文本摘要装置,其特征在于,包括:
第一获取模块,用于基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;
第二获取模块,用于将所述第一中间语义向量输入至主题模型中,得到主题向量;
目标摘要生成模块,用于根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
8.根据权利要求7所述的基于主题模型的文本摘要装置,其特征在于,所述目标摘要生成模块用于执行以下步骤,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特赞(上海)信息科技有限公司,未经特赞(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111145727.5/1.html,转载请声明来源钻瓜专利网。





