[发明专利]一种基于文本摘要的政策要点抽取方法与提取系统有效
申请号: | 202110568578.7 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113032552B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 麦丞程;仇学明;黄宜华;吕爽;周昌东 | 申请(专利权)人: | 南京鸿程信息科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 摘要 政策 要点 抽取 方法 提取 系统 | ||
1.一种基于文本摘要的政策要点抽取方法,其特征在于,该方法包括如下步骤:
S1.构造政策要点抽取数据集,对政策数据集和解读内容进行标签构造;
S2.抽取基于文本摘要的政策要点,对政策要点数据集进行抽取式文本摘要算法模型构建;
S3.基于关键单词进行候选政策要点抽取,通过对步骤S2中得到的候选政策要点通过关键词进行二次筛选,作为最终的政策要点抽取结果;
步骤S1中所述构造政策要点抽取数据集的具体方法是:
S11.对于一篇政策文档
S12.初始化每个句子标签为,预测摘要集合
S13.当预测摘要集合
S14.如果句子加入预测摘要集合
步骤S2中所述抽取基于文本摘要的政策要点的具体方法是:
S21.参数定义:对于一篇给定的政策文档,
S22.词性标注:给定一篇包含
1)对输入的政策文档
2)将前向和后向LSTM的输出隐状态拼接后得到每个单词的隐状态,即第
3)将每个单词的隐状态 输入到分类器得到每个单词所对应的词性标签;
S23.设计基于多任务学习的抽取式文本摘要模型,该模型包含输入层、词性标注层、单词层、句子层、文档层和预测层这六个部分,具体地:
1)输入层:将政策文档中的每条句子
2)词性标注层:将每条句子的词嵌入示表示结果输入到前向和后向LSTM中,得到词性标注任务的隐状态:
其中,表示词性标注层中句子
3)单词层:将词性标注中每个单词的隐状态输入到单词层前向和后向LSTM中,得到单词层的隐状态:
其中,表示单词层句子
4)句子层:采用将句内单词的单词层隐状态叠加的形式,构成句子的语义表示,公式表示如下:
其中,
5)文档层:通过随机初始化文档级别的语义信息
6)预测层:结合单词层、句子层、文档层的语义信息对政策中的句子进行分类,计算每个句子抽取出来作为要点内容的概率
其中,
其中,表示 的向量转置,表示句子向量与该句子内的第
其中,表示文档级别的语义信息
S24.联合训练步骤S22中的基于神经网络搭建的词性标注模型和步骤S23中的抽取式文本摘要模型,这两个模型优化目标都采用交叉熵损失函数,这两个模型的联合损失函数为:
其中,,,为文本第
S25.阈值选择,待模型训练结束后,利用模型推理出每篇文档中每个句子成为候选摘要句子的概率,设定一个阈值,将概率高于阈值的句子抽取出来作为候选政策要点内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京鸿程信息科技有限公司,未经南京鸿程信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110568578.7/1.html,转载请声明来源钻瓜专利网。