[发明专利]一种基于文本摘要的政策要点抽取方法与提取系统有效

申请号：	202110568578.7	申请日：	2021-05-25
公开（公告）号：	CN113032552B	公开（公告）日：	2021-08-27
发明（设计）人：	麦丞程;仇学明;黄宜华;吕爽;周昌东	申请（专利权）人：	南京鸿程信息科技有限公司
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/33;G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	许小莉
地址：	211800 江苏省南京市江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本摘要政策要点抽取方法提取系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文本摘要的政策要点抽取方法与提取系统。本发明的方法包括如下步骤：S1.构造政策要点抽取数据集，对政策数据集和解读内容进行标签构造；S2.抽取基于文本摘要的政策要点，对政策要点数据集进行抽取式文本摘要算法模型构建；S3.基于关键单词进行候选政策要点抽取，通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选，作为最终的政策要点抽取结果。本发明充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。结合多任务学习框架，克服了现有抽取式文本摘要算法覆盖不全和容易过拟合的问题；基于关键单词的候选政策要点抽取过程有助于在文本摘要的基础上更进一步的抽取政策文本的核心内容。

技术领域

本发明涉及人工智能和自然语言处理领域，特别涉及一种基于文本摘要的政策要点抽取方法与提取系统。

背景技术

近年来，由于互联网用户每天在互联网上分享和传递大量以文本形式展现的信息，互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时，很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此，如何能够从这些海量的长文本中提取出用户最关注的内容，提升对于信息处理的效率，成为了当下自然语言处理领域迫在眉睫的研究工作。

一个好的摘要内容需要满足摘要内容重要性高、多样性高、冗余度低和可读性高等多方面的要求。对文本摘要按照生成方式的不同进行分类，可分为抽取式文本摘要（Extractive Summarization）和生成式文本摘要（Abstractive Summarization）。其中，抽取式文本摘要能够直接从原文中抽取句子，并对其进行重要性排序，形成最终的摘要。生成式文本摘要在对原文进行语义理解的基础上，对信息进行压缩，生成包含新的词汇与具有不同描述风格的摘要内容。

这两种方法各有其优点与局限性。抽取式文本摘要虽然能够抽取原文中的重要句子，但是受摘要长度的限制，其所抽取的句子可能不能完全覆盖原文内容。相较而言，生成式文本摘要在直观上更符合人类摘要书写的习惯，可以生成原文中没有的单词，灵活性更强。但其描述内容容易出现事实性错误以及存在连贯性差等问题。

“智慧政务”是文本摘要技术应用的重要场景，为了从每年各级政务服务部门发布的大量政策文件中抽取出关键信息，为企业提供政策解读的辅助能力，在政策服务领域，政策要点抽取是抽取式文本摘要技术的一个重要应用场景。从长篇幅的政策原文中抽取出重要的内容与政策要求对于提升政策的易理解性与传播效率具有重要作用。

发明内容

发明目的：本发明提出了一种基于文本摘要的政策要点抽取方法与提取系统，充分利用文本摘要技术解决政策服务领域的政策要点抽取难题。

为了实现上述目的，本发明提出的技术方案为：

一种基于文本摘要的政策要点抽取方法，该方法包括如下步骤：

S1.构造政策要点抽取数据集，对政策数据集和解读内容进行标签构造；

S2.抽取基于文本摘要的政策要点，对政策要点数据集进行抽取式文本摘要算法模型构建；

S3.基于关键单词进行候选政策要点抽取，通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选，作为最终的政策要点抽取结果。

所述的基于文本摘要的政策要点抽取方法，步骤S1中所述构造政策要点抽取数据集的具体方法是：

S11.对于一篇政策文档d和其对应的标准摘要集合用R表示，根据词表将输入文本单词转化成数字；

S12.初始化每个句子标签为，预测摘要集合S为空；