[发明专利]一种抽取式与生成式相结合的公文摘要生成模型有效
| 申请号: | 201910330573.3 | 申请日: | 2019-04-23 |
| 公开(公告)号: | CN110119444B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 宋荣伟;王进;王鹏 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/205;G06F40/242;G06F40/284;G06F40/30;G06N3/0442;G06N3/0455 |
| 代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 谷庆红 |
| 地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 抽取 生成 相结合 公文 摘要 模型 | ||
本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
技术领域
本发明涉及一种抽取式与生成式相结合的公文摘要生成模型,属于自然语言处理技术领域。
背景技术
大量的政府公文文本数据的存在使得人们针对性的检索和查阅变得十分困难,庞大的信息使得人们在浏览阅读时花费大量时间。因此,如何通过自动化的方法快速从大量公文信息中提取关键内容,解决信息过载的问题,成为了一个迫切的需求,自动公文摘要技术是其中一个可行有效的解决方案。
文本摘要技术按照生成摘要类型可分为抽取式摘要和生成式摘要。前者是将原文中的句子按照一定的方法来进行重要性排序,将重要性最高的前n个句子作为摘要;后者是通过挖掘更深层次的语义信息,对原文中心思想进行转述、概括而生成摘要。然而生成式算法模型的训练需要大量的人工标注数据,在人力、财力和时间有限的情况下,生成式算法的应用收到了一定的限制,本发明提出了一种将抽取式和生成式摘要相结合的公文摘要生成方法有效的解决了这个问题。
发明内容
为解决上述技术问题,本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,该抽取式与生成式相结合的公文摘要生成模型对公文数据进行预先处理,使用抽取式摘要模型产生弱标签摘要数据A,并对弱标签摘要数据A进行语义增强,利用基于Seq2Seq+Attention机制的生成式摘要模型进行训练,使所生成的公文摘要更准确的表征文本的语义含义。
本发明通过以下技术方案得以实现。
本发明提供的一种抽取式与生成式相结合的公文摘要生成模型;首先筛选公文内容,去除公文摘要噪声数据,并对处理后的数据进行清洗、预处理,然后采用抽取式摘要模型生成弱标签数据集A,其次通过摘要连贯性和增加高置信度样本数的方式增强弱标签数据集A的质量,最后采用弱标签数据集A训练生成式摘要模型,获取公文摘要生成模型。
具体包括以下步骤:
①公文内容筛选:从公文数据语料中,对公文内容进行筛选,去除公文中的公文摘要噪声数据;
②数据清洗、预处理:对筛选后的公文进行文本预处理和清洗,获取文本数据,将文本数据进行预处理分词,再利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量;
③抽取式摘要模型:将词向量融合表示成句子向量,并将句子向量输入抽取式摘要模型,获取每个句子在公文中的重要性,选取重要性最大的句子作为抽取式摘要模型生成的弱标签摘要数据A;
④弱标签摘要数据A语义增强:对弱标签摘要数据A进行数据增强,增强摘要句子之间的语义连贯性,筛选去除抽取式摘要模型中置信度较小的样本;
⑤生成式摘要模型:将弱标签摘要数据A以及公文数据语料输入生成式摘要模型,并采用步骤①及步骤②的方法对公文数据语料进行处理;
⑥公文摘要:训练步骤⑤中的生成式摘要模型,获取公文摘要生成模型。
所述步骤①中,公文摘要噪声数据包括表格、具体叙述条文、名单列表,并采用正则匹配的方式去除公文中的表格、名单列表、具体叙述条文与公文正文之间的空白行。
所述步骤②中,文本预处理和清洗为:去除筛选后的公文中的数字、网络字符以及特殊字符。
所述步骤⑤中,生成式摘要模型采用基于Seq2Seq+Attention机制的方法生成公文摘要序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910330573.3/2.html,转载请声明来源钻瓜专利网。





