[发明专利]基于知识图谱技术的海量非结构化配网数据集成方法有效
申请号: | 201710593929.3 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107330125B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 曹敏;邹京希;唐立军;赵旭;周年荣;魏玲;沈鑫 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 技术 海量 结构 化配网 数据 集成 方法 | ||
本发明公开一种基于知识图谱技术的海量非结构化配网数据集成方法,数据采集单元采集各信息化系统的非结构化配网数据,并分别对各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引;将基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;数据管理中心构建基于全局知识图谱的数据全局索引。本发明将分布式多源异构数据的采集、质量分析和数据清洗前置到各信息化系统,降低数据管理中心的数据融合计算量、存储压力和数据调度负担;利用基于全局知识图谱的数据全局索引对数据源进行集成,便于数据查询和提取,减小数据管理中心的工作量。
技术领域
本发明涉及数据融合与集成技术领域,特别涉及一种基于知识图谱技术的海量非结构化配网数据集成方法。
背景技术
电网包括营销系统、生产系统、配电数据采集与监控系统、以及电能表等信息化系统,为增强电网运营能力和扩充电力客户服务能力和质量,需要高效、快速地采集来自于配网设备的海量数据,并结合营销系统、生产系统等业务系统数据,并对数据进行有效识别和过滤,最终输出有利于电力运营、提高客户服务质量和服务水平的相关数据。
从各个信息化系统采集到的配网数据可分为两类,一种是结构化数据,如数据或符号类数据,另一种是非结构化数据,如用户语音、图像、文本等。现有的非结构化配网数据的集成方法是建立一个统一的数据中心平台,采用数据适配器等技术将采集到的非结构化数据拷贝到数据中心平台,然后对数据进行清洗后集成,从而解决各部门之间频繁的数据交换的需求。
然而,这种方法一方面普遍在数据中心进行集中数据清洗,导致数据中心清洗量大,集成速度慢,无法满足海量的非结构化数据的集成要求;另一方面,各个信息化系统的非结构化数据在业务逻辑、数据格式和存储上均存在差异,因此,当数据传输至数据中心平台后,不仅不利于海量数据的分类存储,还给数据提取和查询带来不便,大大增加了数据中心平台的工作量。
发明内容
为解决上述技术问题,本发明提供一种基于知识图谱技术的海量非结构化配网数据集成方法。
根据本发明的实施例,提供了一种基于知识图谱技术的海量非结构化配网数据集成方法,包括:
由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;
根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;
将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;
由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。
进一步地,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:
对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息;
根据所述实体库中各实体的关系,构建所述局部知识图谱;
以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。
进一步地,所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710593929.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页数据的核对方法
- 下一篇:用于输出信息的方法和装置