[发明专利]知识体系的建立方法、装置及存储介质有效
申请号: | 201811290494.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109344262B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 宋勋超 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 体系 建立 方法 装置 存储 介质 | ||
本发明提供一种知识体系的建立方法、装置及存储介质,通过从行业数据中获取结构化数据和非结构化数据,其中,结构化数据包括实体的实体名称以及实体名称对应的属性信息;根据结构化数据构建知识图谱,知识图谱中包括实体的属性和属性值以及各实体之间的关系;根据非结构化数据构建与知识图谱关联的图谱外延层,图谱外延层包括问答层、知识段落层以及推理层。上述建立方法得到的知识体系为复合形式的分层体系,包含知识图谱层和图谱外延层,图谱外延层的数据与知识图谱层的数据相互融合,使得该知识体系具有较高的行业数据转化率,能够支持AI化的行业应用。
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种知识体系的建立方法、装置及存储介质。
背景技术
目前越来越多的行业,需要信息化的整体已有知识,形成知识体系,沉淀行业经验,并在知识体系之上,提供能够赋能行业,降低行业人力成本的智能化AI应用。知识图谱是近年来在行业中比较热门的知识体系组织形式,很多具备一定技术势力的行业客户,期望或者正在进行行业知识体系的图谱化工作。
行业知识体系往往是极为复杂的,单一的知识表示形式很难覆盖行业知识上层应用的需求。目前的大数据解决方案重点关注在结构化的知识数据构建上,传统的知识库解决方案重点关注在非结构化的数据检索和自然语言处理相关问题上。实际上,行业积累的大量数据,普遍存在各种形态,通过单一形式的知识体系,很难满足行业在AI场景下的高要求。
目前业界对行业知识体系构建的处理方法分为如下几类:一是,原始知识不经过细化处理,直接以检索引擎相关技术进行上层服务,知识体系即为文档、段落粒度的组织。二是,原始知识经过扁平化二维处理,转化为问题-答案的形式,能够实现一些比较简单的上层应用知识,比如简单问答等,知识体系即为二维组织形式。三是,原始知识经过大数据处理技术,或者数据库处理技术,存储于大数据引擎或者数据库中,知识体系即为结构化的行列组织形式。
上述三个方案存在如下问题:应用能力的限制,知识体系的表达形式单一化,往往只能适应单一场景的应用需求;语义理解能力低;行业数据转化率差;知识信息密度低,知识缺乏语义层次,难以支撑比较AI化的行业应用。
发明内容
本发明提供的知识体系的建立方法、装置及存储介质,实现构建复合型层次化知识体系的构建过程,该知识体系具有较高的行业数据转化率,能够支持AI化的行业应用。
本发明的第一方面提供一种知识体系的建立方法,包括:
从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;
根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;
根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层。
在一种可能的实现方式中,所述根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,包括:
获取所述非结构化数据对应的实体;
根据所述非结构化数据对应的实体以及所述知识图谱中的实体,针对相同的实体构建与所述知识图谱关联的图谱外延层。
在一种可能的实现方式中,所述根据所述结构化数据构建知识图谱,包括:
获取各所述结构化数据中各实体的相似度度量;
根据各所述相似度度量针对同一实体进行归一化聚合处理,得到所述知识图谱。
在一种可能的实现方式中,所述各实体的相似度度量包括如下中的至少一种:字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811290494.6/2.html,转载请声明来源钻瓜专利网。