[发明专利]一种获取文本摘要的方法及语言模型生成方法在审

专利信息
申请号: 202010318584.2 申请日: 2020-04-21
公开(公告)号: CN111581341A 公开(公告)日: 2020-08-25
发明(设计)人: 陈栋;付骁弈;张杰 申请(专利权)人: 上海明略人工智能(集团)有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/34;G06F40/211
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 王康;龙洪
地址: 200232 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 获取 文本 摘要 方法 语言 模型 生成
【说明书】:

一种获取文本摘要的方法及语言模型生成方法、计算机存储介质及终端,本发明实施例在分句排序调整后生成各分句的语句特征向量,根据语句特征向量确定语句排序信息后,根据标准排序信息和确定的语句排序信息对特征提取器进行参数调整,获得考虑了语句排序对语句权重影响的用于向量表达的语言模型,为提升文本摘要的抽取质量提供了技术支持。

技术领域

本文涉及但不限于自然语言分析技术,尤指一种获取文本摘要的方法及语言模型生成方法、计算机存储介质及终端。

背景技术

在能够保证给定的单个或者多个文档的重要内容的情况下,文本摘要用于尽可能简明扼要地对原文档进行概括总结。质量良好的文本摘要能够在信息检索过程中发挥重要的作用,比如利用文本摘要代替原文档参与索引,可以有效缩短检索的时间,也能减少检索结果中的冗余信息,提高用户体验。

自动化文本摘要是自然语言处理领域的一项重要的研究课题;按照文本摘要的生成方式,自动化文本摘要可分为:抽取式文本摘要、生成式文本摘要和压缩式文本摘要;其中,抽取式文本摘要通过计算原始文本中语句成分的权重,从原始文本中提取现成的语句来生成文本摘要,因此,在语法和句法上错误率低,一定程度上保证了文本摘要的质量。抽取式文本摘要在计算原始文本中语句成分的权重时,需要对语句进行向量表达;常见的向量表达模型包括:词向量模型(Word to Vector)和预训练语言模型(Pre-trainedLanguage Model);其中,预训练语言模型是基于不同语言学假设的训练方式获得的语言模型,可将语句直接映射为向量表达,根据模型内的机制(双向和注意力等),预训练语言模型考虑了词间的相似性与词序关系,包括嵌入式语言模型(ELMO)和双向预训练语言模型(Bert)等。

通过上述预训练语言模型将语句映射为向量表达后,根据语句的向量表达计算出原始文本中各语句的权重,相关技术根据计算获得的语句权重进行语句抽取获得文本摘要;查阅获得的文本摘要时,工作人员发现在抽取语句获得文本摘要时并未考虑语句排序,获得的文本摘要在语句排序上存在问题,文本摘要抽取质量有待进一步提升。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种获取文本摘要的方法及语言模型生成方法、计算机存储介质及终端,能够在文本摘要抽取时考虑语句排序,提升文本摘要抽取质量。

本发明实施例提供了一种语言模型生成方法,包括:

对分句排列顺序调整的训练文本,按照预设生成策略生成各分句的语句特征向量;

通过预设的特征抽取器对生成的各分句的语句特征向量进行处理,获得各分句的输出向量;

根据获得的所有分句的输出向量,确定排列顺序调整后的分句的语句排列顺序信息;

根据标准排序信息和确定的语句排序信息,对特征提取器进行参数调整,以获得用于向量表达的语言模型;

其中,所述语句特征向量包括:字嵌入的特征信息、区分各相邻分句的特征信息和标识分句内词语排序的特征信息;所述标准排序信息包括:对未调整分句排列顺序的训练文本的各分句按序分别添加编号;根据添加的所有分句的编号,生成未调整分句排列顺序的训练文本的编号排序信息;语句排序信息包括:基于添加的各分句的编号生成的:分句排列调整后训练文本的所有分句的编号排序信息。

另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述语言模型生成方法。

再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,

处理器被配置为执行存储器中的计算机程序;

所述计算机程序被所述处理器执行时实现如上述语言模型生成方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010318584.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top