[发明专利]知识体系的建立方法、装置及存储介质有效
申请号: | 201811290494.6 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109344262B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 宋勋超 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 体系 建立 方法 装置 存储 介质 | ||
1.一种知识体系的建立方法,其特征在于,包括:
从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;
根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;
根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层,所述推理层包括所述图谱外延层中的规则、决策、过程的表现形式;
所述从行业数据中获取结构化数据和非结构化数据,包括:
从关系型数据库中获取所述结构化数据;
通过预设抽取规则,从行业数据中抽取非结构化数据,所述预设抽取规则至少包括如下中的一种:要素抽取、标签抽取、关系抽取、属性值抽取。
2.根据权利要求1所述的方法,其特征在于,所述根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,包括:
获取所述非结构化数据对应的实体;
根据所述非结构化数据对应的实体以及所述知识图谱中的实体,针对相同的实体构建与所述知识图谱关联的图谱外延层。
3.根据权利要求1所述的方法,其特征在于,所述根据所述结构化数据构建知识图谱,包括:
获取各所述结构化数据中各实体的相似度度量;
根据各所述相似度度量针对同一实体进行归一化聚合处理,得到所述知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述各实体的相似度度量包括如下中的至少一种:字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。
5.根据权利要求3所述的方法,其特征在于,在获取各所述结构化数据中各实体的相似度度量之前,所述方法还包括:
判断各实体的所述属性信息是否满足预设语法规则;
若否,则根据预设映射规则,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述实体名称对应的属性信息包括实体的属性以及属性对应的属性值。
7.一种知识体系的建立装置,其特征在于,包括:
获取模块,用于从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;
构建模块,用于根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;
所述构建模块,还用于根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层,所述推理层包括所述图谱外延层中的规则、决策、过程的表现形式;
所述获取模块,具体用于:
从关系型数据库中获取所述结构化数据;
通过预设抽取规则,从行业数据中抽取非结构化数据,所述预设抽取规则至少包括如下中的一种:要素抽取、标签抽取、关系抽取、属性值抽取。
8.根据权利要求7所述的装置,其特征在于,所述构建模块,具体用于:
获取所述非结构化数据对应的实体;
根据所述非结构化数据对应的实体以及所述知识图谱中的实体,针对相同的实体构建与所述知识图谱关联的图谱外延层。
9.根据权利要求7所述的装置,其特征在于,所述构建模块,具体用于:
获取各所述结构化数据中各实体的相似度度量;
根据各所述相似度度量针对同一实体进行归一化聚合处理,得到所述知识图谱。
10.根据权利要求9所述的装置,其特征在于,所述各实体的相似度度量包括如下中的至少一种:字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811290494.6/1.html,转载请声明来源钻瓜专利网。