[发明专利]一种基于电力审计制度的无监督知识图谱构建方法在审
申请号: | 202110829109.6 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113360680A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 赵张莉;杨燕;崔艺馨;郝磊;崔霞;李博 | 申请(专利权)人: | 国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/31;G06F40/205;G06F40/253;G06F40/295;G06F40/30 |
代理公司: | 天津盛理知识产权代理有限公司 12209 | 代理人: | 王来佳 |
地址: | 300010*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 电力 审计 制度 监督 知识 图谱 构建 方法 | ||
本发明提供了一种基于电力审计制度的无监督知识图谱构建方法,包括以下步骤:步骤1、定义电力审计法律制度文档关键信息的抽取规则,定义三元组类型与内容,并根据定义的三元组生成正则表达式;步骤2、基于步骤1中生成的正则表达式以及输入的审计制度,采用无监督方法自动提取法律制度文档中的关键信息;步骤3、基于步骤2中提取的三元组形式的法律制度文档中的关键信息,根据实体和关系构建知识图谱并保存,同时对关键信息进行上下文编码得到稠密的低维向量语义表示。该方法以根据电力审计相关法律制度提取关键信息并构建知识图谱为目标,便于更好地利用电力审计相关法律制度中的相关信息,为智能问答等下游任务提供基础。
技术领域
本发明涉及移动通讯技术领域,具体为一种基于电力审计制度的无监督知识图谱构建方法。
背景技术
随着大数据时代的到来,知识工程受到了广泛关注,如何从海量的数据中提取有用的知识,是大数据分析的关键。知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段,从而具有广阔的应用前景。
知识图谱的概念于2012年由谷歌正式提出,现已成为人工智能重要研究领域。知识图谱是结构化的语义网络,“主语-谓语-宾语”三元组(简称三元组)是其最小组成单位。从字面上看,三元组特指“主语,谓词,宾语”的组合,如“陨石,撞击,月球”这类事实。但实际上,这一概念是非常广泛的,它还可以用来指代形如“名词,属性,属性值”或“名词1,关系,名词2”的组合。为便于研究,一般将这些都统一记作“实体1,关系,实体2”。其中,实体指的是对真实世界对象的抽象。知识图谱包含数据与模式两个层面。数据即由三元组描述的每一条知识组成,规模较为庞大。模式又被称为本体,是对数据的抽象描述,规模较小。如对天眼查数据构建知识图谱,数据包含形如“张三,持股,10%”的具体知识,模式则包含“持股人,持股,持股份额”这类对数据的概括。模式可由专家人工构建或借助神经网络进行自动构建。
另一方面,三元组抽取为获取三元组的过程,三元组抽取是构建知识图谱的核心步骤,也是从知识图谱诞生以来就面临的一大难题。对半结构化或结构化的语料,只需对格式进行简单处理就能够得到所需的三元组。而对于非结构化的语料,则需要进行三元组抽取。由于人工抽取三元组耗时耗力、效率低下,研究者设计了诸多机器自动抽取三元组的方法。这些方法从技术层面可分为有监督、半监督和无监督三类。
有监督三元组抽取依赖于大量经标注的三元组。研究者需要先构造模式,并按照模式制作训练集,通过机器学习的方法训练关系分类器,然后使用关系分类器,将通过命名实体识别从句子中识别出的实体归类于模式中的关系,得到形如“实体1,关系,实体2”的三元组。常见的有监督三元组抽取方法包括基于卷积神经网络的三元组抽取、基于长短期记忆网络的三元组抽取、基于预训练语言模型BERT的三元组抽取等。
以远程监督算法为代表的半监督三元组抽取同样需要大量经标注的三元组,但这些三元组是由机器参照一个相关领域的知识图谱自动进行标注的。该方法认为,如果一对实体之间具有某种关系,那么所有包含这对实体的句子都能够表达这种关系。例如参照知识图谱中包含“中国,首都,北京”这个三元组,那就认为待抽取语料中所有通过命名实体识别得到的含实体“中国”、“北京”的句子,都可以提取出该三元组,并将这些句子包含的关系标注为“首都”,从而完成对句子的标注。依照这一思想,研究者需要对待抽取语料按照参照图谱中的实体与关系对进行分包、关系标注,进行多事例学习。
无监督方法不需要标注数据,主要包括句法依存方法和特征模板方法。句法依存方法要求研究者构筑相关领域的专用词词典,基于该词典对句子进行分词与语法依存分析,得到依存树。此后通过对依存树的遍历,根据语法特征(如主谓宾、主系表、定状补等)进行三元组抽取。特征模板方法要求研究者针对文本特征,设计特定规则模板抽取指定属性的三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110829109.6/2.html,转载请声明来源钻瓜专利网。