[发明专利]一种基于关键句和关键字的反向生成摘要的方法在审

专利信息
申请号: 201910281699.6 申请日: 2019-04-09
公开(公告)号: CN109977220A 公开(公告)日: 2019-07-05
发明(设计)人: 舒泓新;蔡晓东;蒋鹏;马新成 申请(专利权)人: 中通服公众信息产业股份有限公司
主分类号: G06F16/34 分类号: G06F16/34
代理公司: 济南智圆行方专利代理事务所(普通合伙企业) 37231 代理人: 张玉琳
地址: 830000 新疆维*** 国省代码: 新疆;65
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 原文 摘要信息 解码器 测试数据集 注意力模型 语义 框架网络 冗余信息 摘要提取 重要信息 辨识 放入 构建 文档 语句 语法 字典 文本 中文
【说明书】:

发明涉及一种基于关键字和关键句的反向生成摘要的方法。方法包括:构建关键字和关键句的训练和测试数据集,搭建序列到序列的框架网络,通过对关键字和关键句进行编码,再有选择注意力模型对需要提取的地方进行定位和选择,若提取的摘要信息在原文中就选择原文,反之就从字典中选取摘要信息,将定位和选择好的内容放入反向解码器中,再经查重模块,最终得到文本摘要。发明的有益效果是:基于关键字和关键句的摘要提取方法使得文档中的冗余信息降低、对原文中重要信息的辨识能力提高、产生的摘要具有对原文的高度概括且符合中文语法,语句更加流畅,语义也更加符合文意。

技术领域

本发明涉及自然语言处理技术领域,特别涉及一种基于关键句和关键字的反向生成摘要的方法。

背景技术

在自然语言处理领域,文本摘要生成占据着重要的地位,它主要应用于新闻信息服务、文献自动索引、信息检索、搜索引擎等方面。文本摘要生成主要分为提取式和生成式。但随着注意力模型的出现,文本摘要的到了快速的发展。但目前主流的方法是基于序列到序列模型的文本摘要算法。这种算法利用了深度学习技术,使得训练生成的摘要与标准摘要相接近。这种模型的缺点是易出现重复字、对文本冗余信息的识别和处理能力差、对文本的重要信息的辨别能力差且倾向于从文本中直接提取关键信息,当遇到原文中一些需要高度概括的地方时,其创造新词的能力较差,不能形成高度概括的文本摘要。

传统的序列到序列的模型都依靠注意力机制来挑选标准答案的出处。当一些段落没有标准答案的出处时,它就不能准确的找到答案的出处,而是随机的在原文中找一句,最终形成的摘要也就不准确。这就需要去提升注意力模型的定位与选择能力能力。这样该模型才能有高度概括的能力。

生成的摘要也会出现词语之间搭配不准确或不合理,最终导致摘要语句语义、流畅性等受到影响。句子中某些结构是修饰词加中性词的形式。若将其翻转变为中性词在前修饰词在后,从概率论的角度,修饰词更加容易确定。

发明内容

针对语料数据稀疏、注意力模型不能准确定位摘要出处和摘要不能对原文进行高度概括、生成的摘要中词语搭配不合理、摘要中有重复字的技术问题,提供一种基于关键句和关键字的反向生成摘要的方法。

其技术方案为,

1、针对数据稀疏问题,分别用tf-idf算法和用textrank算法提取原文的30个关键字和2个关键句。将这些关键字与答案的关键字用正则表达式进行匹配将不同的关键字加入到30个关键字中。

2、针对注意力模型不能准确定位问题,使用上述这些关键字指引注意力模型在原文中准确定位。

3、针对不能形成高度概括的摘要,在注意力模型上加入选择门,先通过注意力去寻找标准答案出处,若存在则使用该出处生成摘要。若不从在,注意力模型就不用去原文中寻找,直接使用词典中的词造出与标准答案相接近的摘要。

4、针对摘要最后生成阶段有些词与另一些词搭配不合理,采用将标准答案翻转,经训练后形成的摘要也会被翻转,这样一些修饰词更容易被确定,且不破坏句子其他结构。

5、针对重复字问题,在摘要生成过程中查重模块会控制注意力机制。

本方法的具体步骤为:

S1、将获取的语料生成文档;

S2、分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句;

S3、用正则表达式比较标准答案与所述S2提取的关键字,将标题中不同的关键字增加到S2提取的关键字中;

S4、将获取的所述关键字和关键句分别输入两个编码器中;

S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息;语料在进入网络时,会自动统计关键字和关键句以及标题里的字,将这些字作为字典。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中通服公众信息产业股份有限公司,未经中通服公众信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910281699.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top