[发明专利]一种基于文本摘要的政策要点抽取方法与提取系统有效

专利信息
申请号: 202110568578.7 申请日: 2021-05-25
公开(公告)号: CN113032552B 公开(公告)日: 2021-08-27
发明(设计)人: 麦丞程;仇学明;黄宜华;吕爽;周昌东 申请(专利权)人: 南京鸿程信息科技有限公司
主分类号: G06F16/34 分类号: G06F16/34;G06F16/33;G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 许小莉
地址: 211800 江苏省南京市江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 摘要 政策 要点 抽取 方法 提取 系统
【权利要求书】:

1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:

S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;

S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;

S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果;

步骤S1中所述构造政策要点抽取数据集的具体方法是:

S11.对于一篇政策文档d和其对应的标准摘要集合用R表示,根据词表将输入文本单词转化成数字;

S12.初始化每个句子标签为,预测摘要集合S为空;

S13.当预测摘要集合S的单词个数小于摘要约束N=1000,尝试把每一句没有加入预测摘要集合S的句子加入预测摘要集合S,取与标准摘要集合R的文本摘要算法经典评价指标ROUGE-1(SR)最大的句子;

S14.如果句子加入预测摘要集合S后比不加入ROUGE-1分数高,那么就把该句子加入预测摘要集合S,同时将句子标签置为1;否则退出循环;

步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:

S21.参数定义:对于一篇给定的政策文档,n表示该政策文档d中包含n个句子,si表示该政策文档中的第i个句子,每个句子由m个单词构成,即,所以,,wij表示第i句话中的第j个单词,模型的输出为每个句子对应的标签,,标签“1”表示这句话出现在政策要点内容中,标签“0”表示这句话不出现在政策要点内容中;

S22.词性标注:给定一篇包含n个句子,每个句子包含m个单词的政策文档,输出每个单词对应的词性标签 ,词性标签包含动词、名词、副词、形容词;所述词性标注采用基于神经网络搭建的词性标注模型,具体方法是:

1)对输入的政策文档d进行词嵌入式表示,即将每个单词映射在低维稠密向量上,然后输入到前向和后向LSTM中进行特征提取;

2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态,即第i句话中的第j个单词的隐状态;

3)将每个单词的隐状态 输入到分类器得到每个单词所对应的词性标签;

S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:

1)输入层:将政策文档中的每条句子si,进行词嵌入式表示,即:,其中,sij表示句子si中的第j个单词,表示该单词采用词嵌入式表示后的向量;

2)词性标注层:将每条句子的词嵌入示表示结果输入到前向和后向LSTM中,得到词性标注任务的隐状态:

其中,表示词性标注层中句子si中的第j个单词的隐状态;

3)单词层:将词性标注中每个单词的隐状态输入到单词层前向和后向LSTM中,得到单词层的隐状态:

其中,表示单词层句子si中的第j个单词的隐状态;

4)句子层:采用将句内单词的单词层隐状态叠加的形式,构成句子的语义表示,公式表示如下:

其中,wb为可学习的参数;

5)文档层:通过随机初始化文档级别的语义信息doc作为文档级别的信息表示,且通过模型训练更新语义信息参数,以捕获政策文档级别的语义信息;

6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率p(yi),其计算公式如下:

其中,softmax为归一化指数函数,senti表示句子si在该句内单词上的注意力机制加权求和得到的句子语义向量表示,其计算方法如下:

其中,表示 的向量转置,表示句子向量与该句子内的第j个单词的相似程度得分;表示以常数e为底的指数函数;表示句子向量在该句子内第j个单词上的权重分布;

hdoc表示文档级别的语义信息doc利用注意力机制加权求和得到的文档语义向量,其计算方式如下:

其中,表示文档级别的语义信息doc与该文档内第i个句子的相似程度得分;表示文档级别的语义信息doc与该文档内第i个句子上的权重分布;表示文档级别的语义信息doc与句子的矩阵相乘,

S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:

其中,,,为文本第i个句子预测为摘要句的概率;,n表示文本中句子的个数,m表示每个句子的单词个数,C为词性标签的总个数, 表示文本中第i个句子中第j个单词真实词性为v的概率,表示第i个句子中第j个单词预测词性为v的概率,在模型训练过程中,最小化该损失函数;

S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京鸿程信息科技有限公司,未经南京鸿程信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110568578.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top