[发明专利]电网数据管理方法及装置在审
| 申请号: | 201910441686.0 | 申请日: | 2019-05-24 |
| 公开(公告)号: | CN110162792A | 公开(公告)日: | 2019-08-23 |
| 发明(设计)人: | 华召云;张淑娟;王潇;李周;蔡翔;陈清萍;袁方;王萍;钱光超;王鑫;梅峰;陈政波;褚大可;江樱;张福华 | 申请(专利权)人: | 国家电网有限公司;国网安徽省电力有限公司电力科学研究院;国网浙江省电力有限公司信息通信分公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N3/04 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐维虎 |
| 地址: | 100000 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 电网 实体关系 数据管理 文本数据 抽取 预处理 电网数据模型 构建 申请 特征提取模型 文本预处理 工作管理 人工参与 实体识别 语料 预设 取出 挖掘 | ||
1.一种电网数据管理方法,其特征在于,所述方法包括:
获取待处理文本数据,并对获取到的待处理文本数据进行文本预处理;
对预处理后的待处理文本数据进行实体识别,并根据预先构建的电网实体关系抽取模型对识别出的所有实体词进行电网实体关系抽取,其中所述电网实体关系抽取模型基于电网语料文本数据以及与预设的电网实体关系种类对应的特征提取模型构建形成;
根据识别出的所有实体词及抽取出的电网实体关系,构建出与所述待处理文本数据对应的电网数据模型。
2.根据权利要求1所述的方法,其特征在于,所述电网实体关系抽取模型的构建过程,包括:
获取电网语料文本数据,并对获取到的所述电网语料文本数据进行文本预处理;
对预处理后的所述电网语料文本数据中的每条语句进行实体识别,确定出每条语句中的所有实体词,及每个实体词在对应语句中的位置信息;
根据预设的电网实体关系种类对所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果;
根据每条语句的关系标注结果及该语句中的每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵;
将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型。
3.根据权利要求2所述的方法,其特征在于,对获取到的所述电网语料文本数据进行文本预处理,包括:
依次对所述电网语料文本数据进行去重处理、去噪处理、分句处理及分词处理,得到所述电网语料文本数据包括的所有语句,及每条语句包括的所有词语。
4.根据权利要求2所述的方法,其特征在于,所述根据预设的电网实体关系种类在所述电网语料文本数据中的所有实体词进行关系标注,得到每条语句对应的关系标注结果,包括:
针对所述电网语料文本数据中的每条语句,将该语句中的每个实体词与其他实体词依次按照每个电网实体关系种类进行关系匹配;
若关系匹配成功,则将关系匹配成功的两个实体词按照对应的电网实体关系种类进行关系标注,并基于半监督学习算法将针对所述两个实体词的标注结果同步更新到所述电网语料文本数据中的其他语句处,以得到每条语句对应的关系标注结果。
5.根据权利要求2所述的方法,其特征在于,所述根据每条语句的关系标注结果及该语句中每个实体词的位置信息,对该语句进行向量化处理,得到每条语句对应的语句向量矩阵,包括:
针对所述电网语料文本数据中的每条语句,根据该语句的关系标注结果对该语句中的每个实体词进行词向量化处理,得到该语句中每个实体词对应的原始词向量;
对该语句中每个实体词的位置信息进行向量化处理,得到该语句中每个实体词对应的位置向量;
将该语句中每个实体词对应的原始词向量及位置向量进行拼接整合,得到该语句对应的语句向量矩阵。
6.根据权利要求2-5中任意一项所述的方法,其特征在于,所述特征提取模型包括卷积神经网络模型及分类器模型,所述将所述电网语料文本数据中的每条语句对应的语句向量矩阵依次输入到与预设的所述电网实体关系种类对应的特征提取模型中进行训练,得到对应的电网实体关系抽取模型,包括:
根据所述电网语料文本数据中各语句的排列顺序,依次将每条语句对应的语句向量矩阵输入到所述卷积神经网络模型中,并训练所述卷积神经网络模型通过卷积层得到与该语句向量矩阵对应的关系卷积向量;
训练所述卷积神经网络模型通过池化层对该语句对应的关系卷积向量进行三段式划分,并提取出每段关系卷积向量中的最大池化向量;
将与该语句对应的三段关系卷积向量各自对应的最大池化向量依次输入到所述分类器模型,训练所述分类器模型按照预设的电网实体关系种类对输入的最大池化向量进行维度转换,使训练后的所述分类器模型从维度转换结果中选取数值最大的维度分量所对应的电网实体关系种类作为该语句中的与所述最大池化向量对应的实体词的电网实体关系;
将训练后的所述卷积神经网络模型与训练后的所述分类器模型进行模型结合,得到所述电网实体关系抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网安徽省电力有限公司电力科学研究院;国网浙江省电力有限公司信息通信分公司,未经国家电网有限公司;国网安徽省电力有限公司电力科学研究院;国网浙江省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910441686.0/1.html,转载请声明来源钻瓜专利网。





