[发明专利]一种数学题知识点发现与批量标签获取方法在审
申请号: | 201710818970.6 | 申请日: | 2017-09-12 |
公开(公告)号: | CN107562918A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 郝小汉;胡加明;陈磊;张力超 | 申请(专利权)人: | 北京点易通科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100102 北京市朝阳区利*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数学题 知识点 发现 批量 标签 获取 方法 | ||
技术领域
本发明涉及知识分类领域,具体地说,是一种数学题知识点发现与批量标签获取方法。
背景技术
随着在线学习平台的推出,越来越多人的选择在线学习。但随着人们对学习资源的需求以及要求的不断增多,网络中的资源极度膨胀,这为学习者寻找合适的学习资源带来了不小的挑战。如何更好地依据学习者的需求从海量学习资源中寻找到合适的资源,从而有效地提高学习资源的利用率以及学习者的学习效率,一直是大家关注的热点问题。学习中,无论是课件还是试题,都有一定的针对性,一定的知识点和相适应的群体。采取合理的分类,简单的标记,即标签。标签与资源紧密连接,并在此基础上逐步形成标签的推荐机制,标签和学习内容相结。
教学领域,尤其是课件与试题标签化,标签可以更好地帮助挖掘数据库中实际内容,用户不再需要盲目的选择就可以捕获到实质内容;标签可以帮助海量内容的选择和过滤,也是自适应教学核心内容之一。
发明内容
本发明的目的是提供一种数学题知识点发现与批量标签获取方法。本发明的目的是通过以下技术方案来实现:
本发明收集数学学科知识点以及学科词汇,形成学科知识图谱;将待获取标签的题干写成标准格式的文本;提取所述文本中的关键词,并根据所述关键词与所述知识图谱的关联关系确定所述数学题所属的学科词汇及知识点;建立对应所述题库的标签,人工检查待验证的标签,修改标签的信息,并定期校验可采纳标签,确保标签的准确性;该方法生成的标签为后续的自适应教学提供依据,筛选或过滤教学资源提供参考依据。
进一步的,待处理的数学题目题干,包含试题、答案、讲解以及一些注释信息,转换为标准格式的文本。
进一步的,采集数学知识点和数学词汇,形成数学学科知识图谱,数学词汇是满足于知识点扩展而逐步积累起来的,没有严格具体的标准和定义,其与知识点等同,起到进一步补充知识点的作用。
进一步的,提取所述文本中的句式、知识点、关键词,根据所述关键词与所述知识图谱的关联关系确定所述数学题目所属的学科词汇及知识点。
进一步的,标签推荐等级,分为三等级:完全可信,可采纳,待验证,人工只需要检查待验证的标签即可。
进一步的,统计用户对标签的选择次数,根据所述选择次数进行添加、删除或替换标签。
以下是本发明运行步骤:
采集数学知识点和数学词汇,形成数学学科知识图谱,这里要详细说明一下,数学词汇,是满足于数学学科知识点扩展而逐步积累丰富起来的,没有严格的标准和具体的界限,其与知识点相同作用,起到进一步补充知识点的作用,这种词汇知识点有别于概念上的知识点,更接近于学习过程中阶段性,有能力特征的知识点。
所述待处理的数学题目题干,包含试题、答案、讲解等内容,转换为标准格式文本。
提取所述文本中的句式、知识点、关键词,并根据所述关键词与所述知识图谱的关联关系确定所述数学题目所属的学科词汇及知识点。
建立对应所述数学题目的标签,所述标签包括:所述关键词以及所述数学题目所属的学科、知识点。
优选地,所述关键词有一个或者多个。
优选地,所述提取所述文本中的关键词包括:
对所述文本进行word2vec分词(word2vec是谷歌提出基于上下文语境来获取的词向量),得到各子词;
计算各子词,包括句式、知识点、关键词、学科词汇的TF-IDF值;
所述TF-IDF值,其中TF是词频,IDF是逆文档频率;两个值相乘,就得到词的所述TF-IDF值;一个词的重要性越高,其所述的TF-IDF值就越大;关键词是所述TF-IDF最大的前几个,进一步处理形成知识点。
所述分词语义处理,在word2vec中,试题中每一个词是一个向量,Hash算法,word2vec,hash 把词打散,同时定义成向量,词向量加起来确定其可信性;word2vec理解上下语义同时识别到上下语句顺序,实现语句分词以及语义的准确性。试题中每一个词有一个值,bow算法以及词权重,LDA主题以及词语矩阵,两者有递进关系,bow进化到LDA,实现分值的准确计算。本发明专利中获取标签提供推荐等级,分为三等级别:完全可信,可采纳,待验证。人工只需要检查待验证的标签即可。
将所述TF-IDF值高于设定阈值的相关内容作为关键词,或者依照所述TF-IDF值由高到低的顺序选取前面设定个数的相关内容作为关键词。
优选地,所述关键词与知识图谱的关联关系包括:所述关键词在所述知识图谱中出现的位置和次数。
优选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京点易通科技有限公司,未经北京点易通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710818970.6/2.html,转载请声明来源钻瓜专利网。