[发明专利]一种基于图数据库的知识森林构建方法有效
| 申请号: | 201810068490.7 | 申请日: | 2018-01-24 |
| 公开(公告)号: | CN108304519B | 公开(公告)日: | 2020-08-18 |
| 发明(设计)人: | 刘均;任若清;段海梦;刘文强;郑元浩;石磊;杨宽 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/34;G06F16/31;G06F40/279;G06F40/30 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据库 知识 森林 构建 方法 | ||
一种基于图数据库的知识森林构建方法,包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤。本发明根据采集到的各类课程数据,通过查询主题、分面和关系数据库,以及对知识碎片集合多层分类构建实例化知识主题分面树,然后通过计算不同主题下文本知识碎片间相似度生成主题间认知关系,最后基于图数据库设计知识森林数据存储格式,从而实现知识森林的构建和存储。本发明构建实例化知识主题分面树的过程缓解了认知过载问题,生成知识主题间认知关系的过程缓解了认知迷航问题,存储知识森林数据的步骤保证了数据的持久化,也解决了关系型数据库无法很好支持大规模数据和复杂关系存储的问题。
技术领域
本发明涉及知识图谱构建存储领域,具体涉及一种基于图数据库的知识森林构建方法。
背景技术
随着信息技术发展,人类知识也呈现爆炸性增长,知识倍增周期缩短,加剧了知识碎片化现象。为缓解知识碎片SOD三特性(位置分散-Scattered,内容片面-One-sided,结构无序-Disordered)引发的认知过载和学习迷航问题,提出了“知识森林”碎片知识聚合模式:将多源、片面、无序的碎片化知识聚合成结构化、有序化且符合人类认知特点的组织形式。知识森林作为知识图谱的一种,数据量巨大且关系复杂,需要一定的方法实现其构建及存储。
现有技术已经公开的相关内容中,如专利号为CN2016102676060的中国专利“一种基于垂直领域的知识图谱的构建方法”包括三个步骤:(1)抽取在线百科的类的词汇实现和类之间的上下位关系;(2)将领域知识的信息进行归并,定义领域的数据属性和关系属性,并且进一步规约属性的定义域和值域;(3)实体层的学习,即抽取实体和填充实体的属性值。
以上述专利为代表的现有技术在进行知识图谱构建时依赖格式化的数据表,基于关系型数据库存储知识图谱,而关系型数据库随着数据量的增大和关系的复杂,会出现数据冗余、执行效率下降等问题,上述专利无法很好的支持知识图谱中大规模数据和复杂的关系。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于图数据库的知识森林构建方法,此构建方法能够较好的支持知识图谱大规模数据和复杂关系的存储和操作。
为了实现上述目的,本发明采用的技术方案为:包括构建实例化知识主题分面树的步骤、生成知识主题间认知关系的步骤以及存储知识森林数据的步骤;
构建实例化知识主题分面树的步骤为:
采集不同课程的数据,构建课程数据集;根据知识主题及分面数据集,构建知识主题分面树;对课程知识碎片数据集基于层次进行多次分类,确定课程知识碎片和知识主题分面树叶子节点之间的映射关系,由此构建出实例化知识主题分面树;
生成知识主题间认知关系的步骤为:
以经过预处理的各知识主题下知识碎片文本内容为输入,输出课程内任意两个知识主题间具有认知关系的可能性;根据人工设置的阈值,若两个知识主题间具有认知关系的可能性大于阈值,则在这两个知识主题间生成认知关系;以课程数据目录为补充数据源对认知关系进行补充,最终生成课程内知识主题间所有的认知关系;
存储知识森林数据的步骤为:
制定知识森林数据三元组存储格式,将知识森林数据按照对应存储格式构建为三元组形式并存入图数据库,从而得到存储各课程数据的知识森林数据库。
构建实例化知识主题分面树时以课程书籍和百科类、社区问答类网站内容作为信息来源。
构建实例化知识主题分面树时,首先对课程内每一个知识主题,依据该主题的分面及该主题分面间的语义关系,构建以该知识主题名为树根、以该主题各分面名为树干的知识主题分面树;然后对课程知识碎片基于知识主题和分面信息进行多次分类,建立知识主题分面树叶子节点与课程知识碎片之间的映射关系集合,从而构建得到实例化知识主题分面树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810068490.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体文件处理方法、服务器及存储介质
- 下一篇:智能电视搜索平台及搜索方法





