[发明专利]一种基于搜索引擎的在线课程概念知识图谱构建方法有效
| 申请号: | 201911140653.9 | 申请日: | 2019-11-20 |
| 公开(公告)号: | CN110909175B | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | 唐杰;罗干;于济凡;李涓子;刘德兵 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/284;G06F40/289;G06Q50/20 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
| 地址: | 100084*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 搜索引擎 在线 课程 概念 知识 图谱 构建 方法 | ||
1.一种基于搜索引擎的在线课程概念知识图谱构建方法,其特征在于,包括以下步骤:
1)构建候选课程领域,其中,每一个候选课程领域由一级领域,二级领域对构成;对每个候选课程领域,构建对应的种子词集合;
2)选定在线课程,提取课程概念;
2-1)选定在线课程,对课程文本进行文本分词与词性标注;
2-2)利用步骤2-1)的结果筛选候选概念词;
2-3)基于词向量的迭代相似度计算,从步骤2-2)的候选概念词中得到课程概念词,组成课程概念集合;
3)课程概念分类;
设步骤2)得到的课程概念集合为{c1,…,cn},一级领域有{l11,…,l1p},二级领域有{l21,…,l2q},pq;计算l1i与每个cj的word2vec词向量相似度的均值,相似度均值最大的l1i是该课程所属的一级领域;计算l2i与每个cj的word2vec词向量相似度的均值,相似度均值最大的l2i是该课程所属的二级领域;
4)获取课程概念搜索结果;
获取课程概念在搜索引擎的搜索结果,整合每一条搜索结果中的文字片段获得搜索结果的文本;
5)提取扩展概念;
将步骤2)得到的课程概念作为种子词,步骤4)得到的文本作为步骤2)的方法的输入,利用步骤2)的方法得到与课程概念相关的扩展概念集合{ec1,…,ecm};其中,eci为与课程概念相关的第i个扩展概念,m为扩展概念总数;
6)整合所有课程概念及其扩展概念,得到在线课程的概念知识图谱;
对于每个课程概念ci,利用word2vec词向量求余弦相似度,得到扩展概念集合中与该课程概念相似度在A以上的扩展概念集合{eci,1,…,eci,k},每一概念对ci,eci,j都是相关的一对概念,对应概念知识图谱中的一条边;
将在线课程的课程概念和扩展概念作为知识图谱中的结点,课程概念与扩展概念相似度在A以上的概念对在知识图谱中建立对应边,得到该课程的概念知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911140653.9/1.html,转载请声明来源钻瓜专利网。





