[发明专利]一种基于最大熵模型的规则知识图谱构建方法及系统有效
| 申请号: | 202011604545.5 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112612906B | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 林尔迅;吴智海;林海;梁保华;余永奎;蔡春元;陈仁威;黄唯佳;苏轩;陈嘉俊 | 申请(专利权)人: | 广东电网有限责任公司中山供电局 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/08;G06N3/04 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
| 地址: | 528400 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 最大 模型 规则 知识 图谱 构建 方法 系统 | ||
本发明公开了一种基于最大熵模型的规则知识图谱构建方法及系统,所述方法包括以下步骤:S1:导入非结构化数据;S2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;S3:利用现有的深度学习算法训练标注数据集生成规则模型;S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;S5:利用寻径算法模型生成简化知识图谱;S6:将待处理的非结构化数据通过校验规则匹配依次执行步骤S2‑S5得计算结果。本发明通过生成知识图谱降低了搜索空间、简化了数据校验规则,满足了跨界面校验关联数据的需求,提高了校验效率。
技术领域
本发明涉及知识图谱技术领域,更具体地,涉及一种基于最大熵模型的规则知识图谱构建方法及系统。
背景技术
随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和网络上数以亿记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法,用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。
电力公司计量中心使用的营销系统、计量自动化系统业务复杂性不断增加,字段多;在业务系统和发文数据中存在许多业务方需求的数据,如客户,设备,地址等。传统的处理方式是依靠专家规则判断,规则的制定往往不能匹配业务的发展速度,不能快速精确的发觉问题。存在跨界面校验关联数据的需求;目前无法自行配置一些校验任务,时效性较差;不同操作人员的数据校验方式都比较零散;缺乏一套解决业务数据校验问题的方法。
现有技术中,公开号为CN107291800A中国发明专利,于2017年10月24日公开了一种基于关联发现的知识图谱Horn规则挖掘方法,包括(1)输入一个三元组格式的知识图谱,初始化Horn规则配置参数;(2)从知识图谱中选择n个需要进行挖掘的关系,并将n个不含规则体的空Horn规则放入目标规则集合中;(3)在目标规则集合中取一个空Horn规则,从知识图谱中抽取所有的具有推导出空Horn规则所对应的挖掘关系可能性的规则体,将满足条件的由规则体与空Horn规则组成的Horn规则输出;(4)判断集合中的空Horn规则的个数是否为0,若是,结束Horn规则的挖掘,若否,执行步骤(3)。该方法实现了知识图谱Horn规则的自动学习。该方法需要对所有可能的规则体进行抽取,对大于10^3数量级的数据量不适用。
发明内容
本发明为克服上述现有技术中电力公司计量中心使用的营销系统无法解决跨界面校验关联数据的需求,数据校验方式零散、效率低的缺陷,提供一种基于最大熵模型的规则知识图谱构建方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于最大熵模型的规则知识图谱构建方法,包括以下步骤:
S1:导入非结构化数据;
S2;根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
S5:利用寻径算法模型生成简化知识图谱;
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
进一步地,所述非结构化数据包括有:网页、文本、PDF文档。
进一步地,通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司中山供电局,未经广东电网有限责任公司中山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011604545.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种消息队列堆积检测方法以及相关装置
- 下一篇:游戏地形生成方法及装置





