[发明专利]一种电力标准知识图谱构建方法、知识问答系统及装置在审
申请号: | 202211320954.1 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115934955A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 周育忠;林正平;王冕;涂亮;杨宇亮 | 申请(专利权)人: | 南方电网科学研究院有限责任公司;贵州电网有限责任公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/901;G06F40/289;G06Q50/06 |
代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 范晓翠 |
地址: | 510663 广东省广州市市辖区萝岗*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电力 标准 知识 图谱 构建 方法 问答 系统 装置 | ||
1.一种电力标准知识图谱构建方法,其特征在于:包括,
通过采集的电力标准数据,构建电力标准知识图谱的本体结构,所述本体结构包含实体、属性及实体间关系;
获取包含电力标准知识的基础数据,并对基础数据进行知识抽取,抽取出实体、属性及实体间关系;
基于抽取的知识进行知识融合,并对融合后的知识进行存储,构建电力标准知识图谱。
2.如权利要求1所述的电力标准知识图谱构建方法,其特征在于:所述获取包含电力标准知识的基础数据,并对基础数据进行知识抽取包括,
对所述基础数据进行预处理,得到多个文本信息,或者得到多个文本信息和至少一个图像信息;
针对每个文本信息,将该文本信息分词后输入至Bert子模型,得到对应的向量序列,然后将所述向量序列输入至BGRU子模型中,输出用于揭示该文本信息中各个单词对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对实体的提取和属性的提取;
针对每个图像信息,将该图像信息输入至外部调用的公式识别子工具中,得到转换的文本信息,对转换的文本信息进行处理,得到至少一个公式文本,将每个公式文本一同输入至WordBert子模型,得到对应的向量序列,然后将所述向量序列输入至BGRU子模型中,输出用于揭示该转换的文本信息中各个公式文本对应各个标签分值的状态矩阵,再将所述状态矩阵输入至CRF子模型,计算最优标签序列,实现对属性的提取;
将抽取实体和属性的向量序列处理后再输入至关系抽取子模型,实现对实体间关系的抽取。
3.如权利要求2所述的电力标准知识图谱构建方法,其特征在于:所述针对每个文本信息的知识提取方法包括,
将文本信息进行分词后得到长度为n的分词文本w;
将分词文本w=([CLS],w1,w2,…,wn,[SEP])输入至Bert子模型,得到分词文本w对应的向量序列l=(l0,l1,l2,…,ln,ln+1),li∈Rn×L,其中,i∈[0,n+1],向量序列l=(l0,l1,l2,…,ln,ln+1)为Bert子模型的最后一层中分词文本w对应的隐藏状态,[CLS]为起始符,[SEP]为结束符,L为Bert子模型的隐藏状态维数;
将向量序列l=(l0,l1,l2,…,ln,ln+1)中各个词向量序列li作为BGRU子模型中各个时间步的输入;
将BGRU子模型中正向GRU输出的隐状态序列和反向GRU输出的隐状态序列进行计算,得到向量序列l对应的隐状态序列hn+1,hn+1∈Rn×H,H为BGRU子模型的隐藏状态维数;
将隐状态序列hn+1从H维映射到k维,k为标签数;
计算每个分词分类到k个标签的标签分值,得到状态矩阵E=(e0,e1,e2,…,en,en+1),其中ei∈Rk,是一个列向量;
将所述状态矩阵输入至CRF子模型,计算最优标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;贵州电网有限责任公司,未经南方电网科学研究院有限责任公司;贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211320954.1/1.html,转载请声明来源钻瓜专利网。