[发明专利]一种基于搜索引擎的在线课程概念知识图谱构建方法有效
申请号: | 201911140653.9 | 申请日: | 2019-11-20 |
公开(公告)号: | CN110909175B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 唐杰;罗干;于济凡;李涓子;刘德兵 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/284;G06F40/289;G06Q50/20 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索引擎 在线 课程 概念 知识 图谱 构建 方法 | ||
本发明提出一种基于搜索引擎的在线课程概念知识图谱构建方法,属于信息技术领域。该方法使用外部数据库和自然语言处理的方法,获取了课程文本中的概念,由此得到课程领域分类的结果,同时利用搜索引擎获取概念的搜索结果,提取其中的课程扩展概念,完成概念知识图谱的构建。本发明无需训练数据,可在课程文本这一特殊场景中获取准确且全面的概念,有效构建在线课程概念知识图谱。
技术领域
本发明属于信息技术领域,特别提出一种基于搜索引擎的在线课程概念知识图谱构建方法。
背景技术
大型开放式网络课程(MOOC)是近几年兴起的一种全新的教育模式,脱离了时间、地点的限制,让更多的人能够随时享受高质量的教学内容,减少教育资源不平等的现象。国内外著名的在线教育平台如edX、Coursera、学堂在线等,都有不同的高校资源支持,平台上包含许多大师的精品课程,经过几年的发展已经成为大众学习的重要方式之一。课程文本(字幕)是在线课程重要的组成部分,其中包含了这门课程重要的教学内容,不同于一般的文本资料,课程文本具有更高的概念分布密度,在听讲/阅读的时候更难理解,由此构建的概念知识图谱有助于学习在线课程;另一方面,课程文本是对课程所属领域介绍的重要资料,利用构建的概念知识图谱也能反映领域的知识分布。然而课程文本来自于在线课程授课者的口头讲解,尽管比日常交流更加正式,其文本质量还是不如书面文字,同时高密度、多低频的概念分布密度也增加了构建概念知识图谱的难度。
知识图谱主要包括实体、关系、属性三个组成部分,概念知识图谱的构建重点是如何获取概念实体以及概念间相关关系的确定,因此最大的难度在于概念抽取,而不必考虑实体所属类别、语义合并、属性抽取等问题。对于知识图谱的构建和应用目前已经有许多相关的研究,如吴越构建了微博社区的知识图谱,提取了人物、事物、地点、事件、话题5种实体和它们之间的关系,从语义上改进社交网络搜索,但许多重要概念在课程文本中出现频次极低,识别概念的方法不同于上述5种实体;刘凯使用了条件随机场方法来抽取中医临床病历中的实体,但基于统计的机器学习方法也无法识别出那些出现频次极低的概念词;神经网络也能解决实体抽取的问题,Lample G等人提出了不需要人工设计的特征和语言的先验知识,利用LSTM在人工标注的语料集上训练结果来做命名实体识别的方法,但本场景没有人工标注的数据可用。
上述方法能有效解决知识图谱构建、实体抽取等问题,然而它们均无法应用在课程文本的概念提取这一特殊的场景中,课程文本因为其口语化的特征和高密度的概念分布,导致大量重要概念出现频次很低,且有字幕的在线课程数量较少。因此传统的基于规则、基于统计或者基于深度学习的三类方法均难以解决课程文本的概念知识图谱构建问题。其中,基于规则的方法会引入过多非概念词,基于统计的方法会漏掉低频次的概念,深度学习依赖大量人工标注的训练数据。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于搜索引擎的在线课程概念知识图谱构建方法。本发明无需训练数据,可在课程文本这一特殊场景中获取准确且全面的概念,有效构建在线课程概念知识图谱。
本发明提出一种基于搜索引擎的在线课程概念知识图谱构建方法,其特征在于,包括以下步骤:
1)构建候选课程领域,其中,每一个候选课程领域由一级领域,二级领域对构成;对每个候选课程领域,构建对应的种子词集合;
2)选定在线课程,提取课程概念;
2-1)选定在线课程,对课程文本进行文本分词与词性标注:
2-2)利用步骤2-1)的结果筛选候选概念词:
2-3)基于词向量的迭代相似度计算,从步骤2-2)的候选概念词中得到课程概念词,组成课程概念集合:
3)课程概念分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911140653.9/2.html,转载请声明来源钻瓜专利网。