[发明专利]一种基于深度学习的文本摘要方法及系统在审
申请号: | 202111439109.1 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114385806A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 徐书豪;王亚平;赖新明;王志刚;林文辉;伺彦伟;祁洪波 | 申请(专利权)人: | 航天信息股份有限公司;河北航天信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 刘海蓉 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 摘要 方法 系统 | ||
1.一种基于深度学习的文本摘要方法,其特征在于,包括:
通过对输入的目标文件进行中文分词和句子分割处理,将目标文件的原始文本划分为单独的句子;
通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征;
对通过乱序的自注意力计算得到的各个句子特征进行加权整合,并对加权整合后的句子特征进行归一化处理,得到篇章级的句子特征;
将篇章级的句子特征输入预先构建的分类模型,输出句子类别;
根据句子类别将目标文件的原始文本划分为关键信息和非关键信息两部分;
将关键信息按照合理的顺序进行排列组织,并将排列组织后的关键信息合成语义通顺、语法合规的摘要文本。
2.根据权利要求1所述的方法,其特征在于,对输入的目标文件进行中文分词和句子分割处理,包括:
在目标文件的原始文本中的每个句子前后分别插入[CLS]和[SEP]标签,以显性区分不同句子;
将原始文本切分为各个词组,以保留最小语义信息;
根据插入的[CLS]和[SEP]标签,将原始文本中的句子区分为EA、EB两种句子标签;
对原始文本中的各个词组进行位置编码处理,以区分原始文本中的词组。
3.根据权利要求1所述的方法,其特征在于,通过对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量,包括:
基于BERT的预训练模型,对划分为单独句子的原始文本进行文本向量化处理,将原始文本转换为文本向量;
其中,BERT的预训练模型是一个预训练的语言表征模型,采用MLM进行预训练并采用深层的双向Transformers组件进行模型的搭建,进而生成融合上下文信息的深层双向语言表征。
4.根据权利要求1所述的方法,其特征在于,通过乱序的自注意力计算方式对文本向量进行计算,得到包含语义信息的句子特征,包括:
令查询序列与键值对进行点乘,除以向量维度的平方根再做softmax激活,从而求得查询序列与键值对间的相似度,其中查询序列为输入的文本向量,键值对用于查找输入间的对应关系;
利用相似度与目标值向量做乘法,得到包含语义信息的句子特征。
5.根据权利要求4所述的方法,其特征在于,乱序的自注意力计算方式的计算公式为:
Attention(O,K,V)=similarity(Q,K)·V,
Q=K=V
式中,Q代表查询序列,即输入的文本向量;K代表键值对,用于查找输入间的对应关系;V代表目标值向量,表示具体的向量值;dk表示向量维度。
6.根据权利要求1所述的方法,其特征在于,对通过乱序的自注意力计算得到的各个句子特征进行加权整合的计算公式为:
FFN(x)=ReLU(xW1+b1)·W2+b2
式中,x为加权整合的输入向量,W1和W2为全连接层的权重,b1和b2为全连接层的偏置;并且
对加权整合后的句子特征进行归一化处理的计算公式为:ReLU(x)=max(0,x),式中x为归一化处理的输入向量。
7.根据权利要求6所述的方法,其特征在于,通过以下计算公式对归一化处理后的向量进行标准化处理:
h=LayerNorm(x+Sublayer(x))
式中,x为标准化处理的输入向量,μ为输入向量的均值,σ为输入向量的标准差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司;河北航天信息技术有限公司,未经航天信息股份有限公司;河北航天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111439109.1/1.html,转载请声明来源钻瓜专利网。