[发明专利]一种准确而高效的智能化教育知识图谱构建方法在审
申请号: | 202111038104.8 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113704499A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 徐强 | 申请(专利权)人: | 广东昭阳信息技术有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/117;G06F40/166;G06F40/30;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 卢泽明 |
地址: | 519000 广东省珠海市香洲区兴*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 准确 高效 智能化 教育 知识 图谱 构建 方法 | ||
1.一种准确而高效的教育知识图谱构建方法,其特征在于,包括如下步骤:
步骤S1.领域本体构建:基于学科权威的教材教辅资料,构建出知识图谱的本体结构,采用半自动构建本体的方法,使用统计方法和无监督方法得到本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善;
步骤S2.众包半自动语义标注:将文本页面众包给多个标注者,根据构建好的本体,利用语义标注工具标注得到高质量的标注数据;
步骤S3.外源数据补全:将其他来源的结构化程度较好的数据按照本体结构处理后,与标注数据整合在一起;
步骤S4.信息抽取:利用标注数据中的数据作为训练数据,按照学科知识图谱的本体结构,采用有监督、半监督和无监督的方法从互联网文本中抽取实体和关系,得到扩充数据。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,基于学科权威的教材教辅资料,构建出知识图谱的本体结构,具体步骤包括:
步骤S101.归纳领域核心概念:先利用相关统计学方法得到领域术语,和从领域术语中得到领域核心概念,再参考质量较高的知识图谱或数据源,并在众包半自动语义标注步骤中进行完善补充;以上方法得到的领域核心概念的归纳整理需要参照本体构建的两个基本原则,即:本体中类的设计应当秉承独立性和共享性原则;
步骤S102.定义领域关系及其约束:关系是本体的核心基本要素,是对领域中的概念、实例之间的相互作用的描述,关系直接决定了本体知识图谱的知识丰富程度以及基于知识图谱构建的其他应用系统的功能范围;
步骤S103.本体检查:在构建领域本体的过程中需要领域专家的参与和协作;根据专家的指导意见,修改和完善后得到最终的学科领域本体。
3.根据权利要求2所述的方法,其特征在于,步骤S101的本体中包含的类的数目应该尽可能地最小化,尽可能地去除冗余的类。
4.根据权利要求2所述的方法,其特征在于,步骤S102中还包括以下步骤:(1)利用OpenIE方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系;(2)参考质量较高的知识图谱或数据源;(3)根据领域核心概念和百科信息框来确定关系;每个领域核心概念下都有很多实例,大多数实例在百科中都有对应的信息框,通过整合同一概念下多个实例的信息框关系,便可以得到该概念下较为重要的关系;(4)众包半自动语义标注过程中补充新的关系;在众包半自动语义标注过程中,如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。
5.根据权利要求1或2或3或4所述的方法,其特征在于,在所述步骤S2中的“利用语义标注工具标注得到高质量的标注数据”,具体为,基于Pundit开发的众包半自动语义标注工具,将学科教材教辅电子化后得到的HTML文本作为标注对象,并以学科领域本体为标注依据,使用语义标注系统进行半自动语义标注,形成标注数据,且在此过程中完善学科领域本体;基于领域本体的语义标注是指在领域本体的指导下,从文档中抽取出结构化知识的过程,即,将文档中的纯文本知识用RDF语言描述出来;其中,语义标注的过程通常包含两个步骤:(1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例;(2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息;而且在进行语义标注时,将实例及实例间的关系表示为三元组的形式(E1,R,E2),其中,R是实例E1和E2之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东昭阳信息技术有限公司,未经广东昭阳信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111038104.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:行驶车速自动控制系统及方法
- 下一篇:一种纸质作业拍照批改的方法