[发明专利]一种基于BERT预训练模型的文本摘要生成方法有效

申请号：	202110287084.1	申请日：	2021-03-17
公开（公告）号：	CN113128214B	公开（公告）日：	2022-05-06
发明（设计）人：	文凯;周玲玉;杨航;王宗文	申请（专利权）人：	重庆邮电大学;重庆信科设计有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/30;G06F40/253;G06N3/04;G06N3/08
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 训练模型文本摘要生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明请求保护一种基于BERT预训练模型的文本摘要生成方法。该方法包括：将中文短本文数据集进行预处理；利用BERT双向编码特性能更好地获取全局信息，将数据送入BERT预训练模型中进行训练；将实际需要获得摘要的原文本输入BERT预训练模型，使用训练好的参数进行训练，获得最佳词向量；将得到的高质量字向量送入改进后的LeakGAN模型；文本在改进的LeakGAN中进行训练，最终得到摘要输出。本发明使生成器生成更加准确的摘要，提高了摘要的准确性和流畅性。

技术领域

本发明属于自然语言处理文本生成领域，涉及一种基于BERT预训练模型的摘要生成方法。

背景技术

随着时代的进步及信息技术的发展，互联网已经成为人类生活中越来越重要的社交、娱乐乃至工作平台，是人们获取各种知识资源的主要渠道。互联网越来越成为人们生活必不可少的一部分，并且渗透到生活的方方面面。

然而，互联网在为人类提供方便快捷服务的同时，也带来了不可避免的信息过载问题。随着信息数据量急剧增长，信息形式也呈现了多样化的趋势，主要包含文本、声音、图像等。作为互联网最基本的信息形式，文本数据以其占用资源少、方便传输等优点，一直占据互联网信息传播的重要地位。各种领域各种形式的文本信息日益膨胀，使得人们在查阅文献或资料时，即使在使用搜索引擎后，得到的也是过于庞大冗余的备选信息，需要付出大量的时间和精力去筛选。这给知识的获取过程造成了巨大的障碍。如何将庞大冗余的文本数据以一种简洁明了的方式呈现给用户，从而帮助用户快速有效的获取到需要的信息成为了目前亟待解决的问题。

实现文本的自动摘要是解决此问题的一种有效途径。它能自动从电子文本中提取出能够涵盖原始文本核心思想的重要内容，用浓缩的文摘表示原始冗长的文本而不丢失源文档任何重要的含义和信息，为人们快速浏览信息、锁定自己的兴趣点提供了有效、快捷的方式。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种能够改善文本摘要生成的准确度和流畅度的基于BERT预训练模型的文本摘要生成方法。本发明的技术方案如下：

一种基于BERT预训练模型的文本摘要生成方法，其包括以下步骤：

步骤一：对文本数据集进行去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理；

步骤二：对预处理后的数据进行BERT预训练；

步骤三：将BERT预训练得到的句向量转化成词向量；

步骤四：对LeakGAN模型进行优化，判别器中加入注意力机制，将词向量输入加入了注意力机制的LeakGAN模型进行训练，生成摘要。

进一步的，所述步骤一对文本数据集进行去除特殊字符、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理，具体为：

(1)特殊字符：去除特殊字符，主要包括标点符号以及常用停用语气词和转折词，包括：“「，」,￥,…”啊阿哎而且；

(2)将括号里的标签内容转换成词语，如【开心】，因为数据来源微博，会有很多动画表情，以这种形式存在；

(3)日期标签替换：将所有日期替换为TAG_DATE；