[发明专利]基于知识图谱技术的海量非结构化配网数据集成方法有效
申请号: | 201710593929.3 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107330125B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 曹敏;邹京希;唐立军;赵旭;周年荣;魏玲;沈鑫 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 技术 海量 结构 化配网 数据 集成 方法 | ||
1.一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:
由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;
根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;
将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;
由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表;
所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:
对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;
如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;
根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;
构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;
根据所述映射关系和所述局部数据索引表,以实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全局索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱;
其中,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息。
2.根据权利要求1所述的方法,其特征在于,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:
对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库;
根据所述实体库中各实体的上下位关系,构建所述局部知识图谱;
以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。
3.根据权利要求1所述的方法,其特征在于,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:
创建各信息化系统的局部知识图谱的优先级;
如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;
在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;
如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。
4.根据权利要求2所述的方法,其特征在于,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:
判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;
如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;
如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;
对所述文本进行分词,采用基于自然语言处理的语法分析算法分析所述文本的句法结构和句中词语间的依存关系,然后提取实体、类和属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710593929.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页数据的核对方法
- 下一篇:用于输出信息的方法和装置