[发明专利]一种应急预案应急响应等级、行政单位职责自动抽取方法有效
| 申请号: | 202011498662.8 | 申请日: | 2020-12-18 |
| 公开(公告)号: | CN112527961B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 朱安安;邱彦林;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
| 地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 应急 预案 响应 等级 行政单位 职责 自动 抽取 方法 | ||
1.一种应急预案应急响应等级、行政单位职责自动抽取方法,其特征在于,包括以下步骤:
S1:对应急预案进行预处理,按照目录标题对应急预案的文本内容进行拆分,并按照目录标题等级存储至数据库;
S2:针步骤S1中处理好的目录标题进行分类类别的标注,形成带标注的数据集;对标注的数据集进行训练,进行分词、量化、分类处理;
S3:关键信息的抽取:对所有目录标题下的文本内容进行行政单位名称及职责范围抽取;并根据步骤S2所得到的分类结果,对分类结果为描述“应急响应等级、预警等级、事件分级”内容的文本进行响应等级与对应触发条件的抽取;所述关键信息的抽取利用实体识别与实体类型分类相结合的方式进行;
S4:对抽取出的行政单位名称进行去重拼接处理并输出行政单位的职责,对抽取出的与触发条件有关的实体进行标准化处理;
S5:按照目录标题等级获取每一级目录标题下的行政单位名称及职责,获取响应等级与对应触发条件,并输出分析结果;
所述步骤S1的具体过程为:根据预案的目录标题将内容进行拆分,每一节文本存储文本内容的同时保存其目录标题以及该目录标题的父节点,一级目录标题的父节点规定为’root’,将标准化后的应急预案文本入数据库待下一步处理;
步骤S2中所述分类标注采用有监督的二分类模型,数据集的标注需标注每一个目录标题中的内容是否为应急响应”类内容,是则标注为’1’,不是则标注为’0’;
步骤S2中所述训练的过程为:首先对目录标题进行采用jieba进行分词,然后通过TF-IDF计算词频,并进行向量化处理,最后采用多项式朴素贝叶斯分类器进行分类;
步骤S3中所述的实体识别与实体类型分类的步骤如下:
S3.1:文本数据处理:在训练阶段,对每个目录标题以及目录标题下的全部文本进行实体识别时,进行识别的实体的类型为:数量名词、应急响应等级、条件触发词、数词边界的关键词、数量单位、行政单位名称;
S3.2:实体识别与触发词类别分类模型建立:采用one-hot对每个目录标题以及目录标题下的全部文本按字进行编码,编码后向量即为模型的输入向量;将向量输入Bi-LSTM模型,经过模型编码得到输入的每个字的最终状态向量,暂时保存最终状态向量;将最终状态向量输出CRF模型进行解码,得到最终的序列标注结果,若序列标注结果中含有Trigger实体,则找到每个Trigger实体中每个字对应的最终状态向量,采用向量算数平均作为该Trigger实体的词向量,输入Softmax分类;
所述训练过程的Loss采用实体识别模型Loss与Trigger分类Loss相加产生整个模型的损失,经训练得到最终的实体识别与触发词分类模型;
步骤S4的所述去重处理及拼接的方法如下:利用步骤S3.2输出的每个字的最终状态向量,将识别结果为ORG的词的每个字向量进行平均作为实体词的向量,并以此来提取该目录下所有文本实体识别为ORG的每个词的词向量,两两计算余弦相似度,取每个词与其他词相似度最高的词,当两词之间的余弦相似度大于0.9时即判定为描述的是同一个行政单位,将两个实体划为一组,通过相似度的比较将实体划分为不同组,若无相似度大于0.9的则各自成为一组;并选择每组中字符长度最长的作为行政单位的名称,将包含该组中任一实体的句子按照顺序进行拼接,作为该行政单位的职责输出;
所述标准化针对抽取出来的触发词实体、数词实体、量词实体以及关键词实体来进行,每个所述的触发条件的提取必须同时包括触发词、数词实体以及量词实体。
2.根据权利要求1所述的应急预案应急响应等级、行政单位职责自动抽取方法,其特征在于,当一个句子中出现多个触发词实体时,则按照标点符号对句子再次进行断句,使得最终每一子句中只出现一组触发条件。
3.根据权利要求1所述的应急预案应急响应等级、行政单位职责自动抽取方法,其特征在于,所述与触发词对应的量词需进行限制,通过触发词与量词的二次匹配来筛选触发条件。
4.根据权利要求1所述的应急预案应急响应等级、行政单位职责自动抽取方法,其特征在于,对触发条件进行标准化时,当一组触发条件中抽取到两个数词实体,则判定这两个数词实体为触发条件的数量边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011498662.8/1.html,转载请声明来源钻瓜专利网。





