[发明专利]电力预案文本序列标注中集外词处理方法在审
申请号: | 202010891713.7 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112036163A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 杨群;黄香鸿;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电力 预案 文本 序列 标注 中集 处理 方法 | ||
本发明公开一种基于电力预案文本序列标注中集外词处理方法。方法包括:构建电力预案文本中对应词的词嵌入;构建电力预案文本中的部首词典;提取训练模型所需要的特征;训练集外词处理模型;采用集外词处理模型处理集外词。使用上述方法构造的集外词模型可产生处理电力预案序列标注中产生的集外词的词嵌入,使用生成的词嵌入作为电力预案序列标注模型的输入可以生成正确的标签,进而提高电力预案序列标注模型的准确度。
技术领域
本发明涉及自然语言处理以及深度学习领域,特别是涉及一种针对电力预案文本的集外词处理技术。
背景技术
电力调度预案是针对电力调度现象的应对措施,该调度现象和应对预案以文本文件形式存储。是本电网工作调度的行之有效工作经验的积累。在面临电调度现象时候和调度预案由电力系统专业的语法、词汇描述的。其动词具有特定的含义,语法和描述方式与自然语言也不同,描述的对象范围和属性,范围更窄,语法更严格。由于突发安全事件引发原因、发生时间、影响范围的不确定性和突发性,尤其在发生大面积停电事件的情况下,负责应急指挥的领导和技术人员需要掌握电网的运行状况,及时分析事故原因,判断故障位置,为抢修指挥提供方便支持。这就必须建立一个高效、透明、畅通的信息系统作为支撑。在应急指挥状态下,需要应急指挥中心能向指挥人员提供电网运行信息、变电站音视频信息、故障现场音视频信息、各类应急预案以及各类辅助决策信息,并通过技术支持系统,指挥电网调度,协调应急队伍,调用各类应急资源参与应急处理全过程。同时,指挥中心还能通过信息发布平台进行人员召集和事故处理进展状况等信息的发布。
现有的基于深度学习的电力调度预案模型对电力预案文本序列标注准确率较高,然而,不同地区的电力预案文本所包含的内容差异较大,这就导致原先使用一个地区的预案数据训练的模型在处理另一个地区的预案数据时会遇到大量的集外词,这必将导致模型的准确率大幅度下降,如何对集外词进行处理对于电力预案文本序列标注模型的性能至关重要。
发明内容
本发明的目的是提供一种基于电力预案文本序列标注中集外词处理方法,提高电力预案文本序列模型对集外词的标注能力。为实现上述目的,本发明提供了如下方案:
101.构建电力预案文本中对应词的词嵌入:生成电力预案文本的嵌入矩阵,用于模型训练;
102.构建电力预案文本中的部首词典:部首词典用于后续进行部首特征提取;
103.提取训练模型所需要的特征:对训练模型所需要的部首特征,上下文特征,字符序特征进行提取;
104.训练集外词处理模型:以上述提取的特征和S1得到的词嵌入为输入,词嵌入为目标,训练集外词处理模型;
105.采用集外词处理模型处理集外词:训练好的集外词处理模型能够生成集外词的词嵌入,生成的词嵌入可用于电力预案文本序列标注任务;
可选的,构建电力预案文本中对应词的词嵌入,具体包括:
使用Word2vec的模型训练原始的电力预案文本,对Word2vec中的超参数进行调整以提高模型的训练速度,并对原始的预案文本抽样进行测试,使用效果最好的模型作为最终的Word2vec模型,使用训练好的Word2vec模型产生电力预案文本对应的词向量。
可选的,构建电力预案文本中的部首词典,具体包括:
部首词典是从大量电力预案中先总结出每个汉字对应的部首,然后人工进行校正,为电力预案文本中的每个字与其对应的部首建立一一映射关系,以电力预案文本中的汉字为索引,部首为对应的值建立部首词典。
可选的,提取训练模型所需要的特征,具体包括:
使用输入的电力预案文本序列为索引,找到其中组成汉字的对应的部首作为模型的部首特征,以矩阵的形式进行保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891713.7/2.html,转载请声明来源钻瓜专利网。