[发明专利]电网运行规则知识图谱构建系统及方法在审
申请号: | 202111232176.6 | 申请日: | 2021-10-22 |
公开(公告)号: | CN113918512A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 汪旸;程迪;徐浩;刘志成;窦建中;张梦雅;姜涛;张越;余建明;单连飞;刘艳;张连超 | 申请(专利权)人: | 国家电网公司华中分部;北京科东电力控制系统有限责任公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F40/169;G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 李满 |
地址: | 430223 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电网 运行 规则 知识 图谱 构建 系统 方法 | ||
1.一种电网运行规则知识图谱构建系统,其特征在于:它包括文档格式转换模块(1)、文档特征抽取模块(2)、文档标签标注模块(3)、文档结构训练模块(4)、预测模块(5)和文档信息存储模块(6);
所述文档格式转换模块(1)用于将电网运行规则原始文档转换为电网运行规则中间格式文档;
所述文档特征抽取模块(2)用于提取电网运行规则中间格式文档中各段落的标签信息和标签属性,得到特征文件和未标注文件;
所述文档标签标注模块(3)用于对未标注文件进行段落属性标注,首先根据中文文稿层次序号使用规范结合电网运行规则文档规范格式,确定未标注文件各段落属性标签类别,根据未标注文档中每个段落内容,通过人工判别段落应该对应所属类别方式进行标记,得到每个段落标签,构成模型训练的标签数据集,然后对电网运行规则中间格式文档依据中文文稿层次序号使用规范划分层级结构,并将标签类别和文档层级结构进行中文文稿层次序号使用规范下的映射;
文档结构训练模块(4)用于利用特征文件和已标注文本组成模型训练数据,利用模型训练数据训练深度学习神经网络模型;
预测模块(5)用于将待预测的特征文件输入到训练完成后的深度学习神经网络模型中预测其对应的标签类别信息,并根据标签类别信息以及文档层级结构划分映射关系,得到文档结构树;
文档信息存储模块(6)用于利用文档结构树构建电网运行规则知识图谱,以文档结构树中各叶节点及非叶节点作为电网运行规则知识图谱中的实体部分,以文档结构树中各节点之间的映射关系作为电网运行规则知识图谱的映射关系成分。
2.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:它还包括文档内容检索模块(7),文档内容检索模块(7)用于将关键词输入到电网运行规则知识图谱中,并利用RE2文本相似度匹配模型检索得到关键词对应的知识图谱中实体和关系。
3.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述文档格式转换模块(1)用于利用LibreOffice扩展包将电网运行规则原始文档转换为HTML格式的电网运行规则中间格式文档。
4.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述特征文件中特征包括段落是否居中、段落是否加粗、段落是否为列表、段落缩进距离、段落长度大小、段落名称、段落字体大小和段落开头是否为数字。
5.根据权利要求3所述的电网运行规则知识图谱构建系统,其特征在于:所述LibreOffice扩展包提供docx格式文档与HTML格式文档直接转换函数,通过上述格式的转换,docx格式的电网运行规则原始文档中每一段文本都用HTML格式的电网运行规则中间格式文档中的一个标签组表示,HTML格式的电网运行规则中间格式文档保留docx格式的电网运行规则原始文档中文本的属性信息,并以html标签属性的形式展现出来。
6.根据权利要求3或5所述的电网运行规则知识图谱构建系统,其特征在于:所述文档格式转换模块(1)还用于通过python的扩展库pdf2docx,将pdf格式的电网运行规则原始文档转换为docx格式的电网运行规则原始文档。
7.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述文档结构训练模块(4)还用于对模型训练数据进行向量化,然后将向量化后的模型训练数据输入至深度学习神经网络模型,所述深度学习神经网络模型为双向长短期记忆网络和条件随机场模型,经过训练后,深度学习神经网络模型具备根据给定的文本段落特征,预测出正确的文本段落标签类别的能力。
8.根据权利要求1所述的电网运行规则知识图谱构建系统,其特征在于:所述预测模块(5)用于将待预测的特征文件经向量化处理后生成特征文件的向量化数据,将该数据输入至训练完成后的深度学习神经网络模型中,预测其对应的标签类别信息,根据标签类别与层级结构的对应关系,将得到的标签类别映射不同的层级结构上,最终使得文档中每个段落都能映射到对应的层级结构中,从而根据不同的层级结构得到文档结构树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司华中分部;北京科东电力控制系统有限责任公司,未经国家电网公司华中分部;北京科东电力控制系统有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111232176.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光控释药纳米粒子及其制备方法和应用
- 下一篇:外转子内置式永磁同步电机