[发明专利]基于语音文本深度融合特征的摘要自动生成系统及方法有效

专利信息
申请号: 202011198008.5 申请日: 2020-10-30
公开(公告)号: CN112417134B 公开(公告)日: 2022-05-13
发明(设计)人: 申树藩;张思琪;周逸伦;卫志华 申请(专利权)人: 同济大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/33;G06F40/126;G06F40/232;G06F40/284;G06K9/62;G10L15/26
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语音 文本 深度 融合 特征 摘要 自动 生成 系统 方法
【权利要求书】:

1.一种基于语音文本深度融合的摘要自动生成方法,其特征在于,具体实现方法为:

步骤1、预处理与语音对应模块

步骤1.1文本获取

对于k段语音片段{v1,v2,…,vk},首先利用语音识别工具,得到相应的k段文本序列{x1,x2,…,xk};并基于n-gram模型与相似字音表进行文本拼写纠错,对每段文本序列xi(1≤i≤k)利用分词工具进行分词得到词向量Wi={w1,w2,…,wn},对于每个词向量中的词,在相似字音表中查找,获得其相似词汇集合,遍历集合进行替换,选取困惑度最低的文本序列t′i作为最终结果;困惑度的计算方式如下:

其中,n表示分词数量,P(w1,w2,…,wn)是这段文本序列出现的概率,由概率乘法公式计算得:

P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…wn-1)

经过纠错得到最终的k段文本序列{x′1,x′2,…,x′k};

步骤1.2语音对应

将获取文本与音强特征进行对应:利用中文一字一音的特点,根据文本序列{x′1,x′2,…,x′k}获取每段文本的字数{n1,n2,…,nk},k表示文本的序列序数,对每个语音片段vi进行处理,选出语音片段中前ni个最大的音强(即振幅),并按照时间顺序排列,得到长为ni的音强向量ai,音强向量中每个元素对应文本序列中每个字的音强,从而完成语音特征与文本的对应;

经过步骤1预处理模块后,得到摘要提取模型所需文本数据{x′1,x′2,…,x′k}与对应的声音特征{a1,a2,…,ak};

步骤2、编码器模块

在完成预处理模块后,先进行分词,利用xlnet预训练的语言模型对文本数据进行编码,得到对应的文本向量;

对于预处理后得到的文本序列x’i,通过SentencePiece分词后进行嵌入操作得到词向量{xi,1,xi,2,...,xi,m},其中m为该文本序列分词数量,将其送入6个串联的解码器,得到隐藏态{hi,1,hi,2,...,hi,m},计算过程如下:

Qi,j=Ki,j=Vi,j=W·xi,j

hi,j=Norm(fc(Norm(Zi,j)))

其中W为需要训练的权重矩阵参数,Q、K、V分别为Transformer结构中的查询、键、值矩阵,Si,j,k是句子xi’中第k个词对于第j个词的关注度,Norm表示归一化操作,fc表示神经网络中的全连接操作;

为了能够更好地处理长文本,加入了相对位置编码,并融入Transformer-X的理念,将Si,j,k的计算更改如下:

其中,用固定向量p来表示词j的绝对位置,rj-k表示词j和词k之间相对位置,Wq与Wk分别表示模型为计算Q与V矩阵所要学习的权重矩阵;

利用Transformer-XL的思想,将前一个句子的输出存放在cache中,下一个句子训练时接在上一句的输出后面一起进入注意力机制,但在反向梯度计算的时候不需要计算cache中的内容;

由于引入了多头注意力,所以要学习8个W,相应地得到{Zi,j,1,Zi,j,2,...,Zi,j,8},在输入全连接层之前串联后乘上W0再输入全连接层,其中W0也是需要训练的权重矩阵参数;

步骤3、解码器特征融合模块与损失函数模块

在解码器的注意力计算中融入声音特征,得到中间生成摘要,并设计损失函数进行学习;之后再利用xlnet对中间生成摘要进行重新编码进一步学习语义,再次解码,并设计评估函数学习模型,最后得到的结果即为所需摘要;

解码器的具体操作如下:

1)中间摘要生成:由编码器获得文本的原始嵌入编码向量H,经过L个基于Transformer-XL的解码器进行解码,解码过程如下:

oi=Transformerxldecoder(o<i,H),1≤i≤L

H=XLnet(x′1,x′2,…,x′m)

采用自右向左的方式生成长度为L的中间摘要O={o1,o2,…,ol},其中{x′i|1≤i≤m}表示预处理后得到的文本序列数据;

2)声音特征的融合:在中间摘要生成的多头注意力解码器中加入声音特征,具体加入方法如下:首先将得到的声音特征a={a1,a2,…,ak}进行Min-Max标准化,即:

随后设解码器中的Value矩阵为V=(v1,v2,…,vk)T,通过以下方式进行声音特征的融合:

V′=(a1*v1,a2*v2,…,ak*vk)T

3)修正后摘要生成:由于文本序列嵌入编码通过基于xlnet的编码器产生,因此对中间摘要利用xlnet进行重新编码可以更加深刻的理解原始嵌入向量的特征含义,同时更好的捕捉上下文的语义信息;

对O中的每个词进行删除操作得到L份不同的副本{O′1,O′2,…,O′l},O′i=O-oi(1≤i≤L),每个副本有一个词的缺失;接下来,对产生的每个中间摘要副本,利用xlnet得到中间摘要副本的嵌入向量H′i(1≤i≤L):

H′i=XLnet(O′i)

通过基于transformer-xl的解码器结合源文档信息进行该副本缺失词yi(1≤i≤L)的生成:

yi=Transformerxldecoder(H′i,H)

对所有副本进行缺失词的补充,得到的最终结果进行合并,即得到最终修正后的摘要:

Y={y1,y2,…,yl};

所述步骤3中损失函数的具体设计如下:

1)中间摘要损失函数:在中间摘要的形成过程中,设形成的中间摘要为a={a1,a2,…,al},对应的损失函数采用极大似然估计与ROUGE-L规则,具体计算方式如下:

极大似然估计:

其中at={a1,…,at-1},H=XLNet{x1,x2,…,xn},为真实摘要的第t个词;

ROUGE-L规则:

其中,as是从预测分布中采样得到的中间摘要,R(as)是as与真实标签比较之后获得的分数;将两者结合,得到中间摘要形成过程最终的损失函数,β为控制两种损失函数比例的超参数:

2)修正后摘要的评估:设修正后的摘要为y={y1,…,yl},采用极大似然估计与互信息量进行评估;

极大似然估计:

其中a≠t={a1,…,at-1,at+1,…,al},H=XLNet{x′1,x′2,…,x′n},为真实摘要的第t个词;

互信息量评估:

互信息量代表最终形成的摘要y包含真实标签y*中的信息量,用于衡量摘要对信息的包含程度;

将两者加和,得到修正后摘要的评估函数为:

结合上述损失函数,得到解码器模型的损失函数为:

2.一种由权利要求1方法设计的基于语音文本深度融合的摘要自动生成系统,其特征在于,系统包括预处理与语音对应模块、编码器模块、解码器特征融合模块、损失函数模块;其中,预处理与语音对应模块包括文本获取和语音对应;解码器特征融合模块包括中间摘要生成、声音特征的融合、修正后摘要生成;损失函数模块包括中间摘要损失函数、修正后摘要的评估函数;

系统完成的功能:

对于用户音频,经过语音识别工具得到对应文本,在文本获取中纠正文本中的拼写错误并在语音对应中得到与文本按字对应的语音特征;

经过预训练的xlnet编码器后得到文本的向量表示,文本向量与语音特征通过解码器的声音特征融合以及中间摘要生成后学习得到中间摘要;

对于中间摘要重新利用xlnet编码得到对于文本的进一步理解,最后再经过修正后摘要生成学习得到最终的摘要。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011198008.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top