[发明专利]一种从课件文本自动抽取知识单元间学习依赖关系的方法有效
| 申请号: | 201610874480.3 | 申请日: | 2016-09-30 |
| 公开(公告)号: | CN106649259B | 公开(公告)日: | 2019-05-24 |
| 发明(设计)人: | 魏笔凡;王晨晨;刘均;郑庆华;曾宏伟;姚思雨;吴蓓;石磊;郭朝彤 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06F16/36 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 课件 文本 自动 抽取 知识 单元 学习 依赖 关系 方法 | ||
本发明公开了一种从课件文本自动抽取知识单元间学习依赖关系的方法,通过处理知识单元对应课件中的文本,得到候选术语集合,然后处理候选术语集合中的同义术语,并计算每个术语对知识单元的关键程度,构建出最优化模型,通过求解得到最优化的学习依赖关系抽取模型,能够对课件文本进行自动分析,识别出文本中的术语并计算出术语对知识单元的关键程度,并通过最优化术语之间的关系得到学习依赖关系挖掘的模型,该过程不依赖于学习依赖关系的局部性,能够用来挖掘主题关联较远的知识单元之间的学习依赖关系,为学习者提供更为完整的知识导航服务。
技术领域
本发明涉及学习依赖关系的方法,具体涉及一种从课件文本自动抽取知识单元间学习依赖关系的方法。
背景技术
随着人类科学技术的迅猛发展,人类知识总量呈现出爆炸式增长。根据联合国教科文组织的统计,人类近30年所积累的知识占有史以来知识总量的90%,并且知识的倍增周期仍在不断缩短,目前已减至5-7年。知识总量的快速增长为知识的有效获取和表达带来了严重挑战。传统解决方案是通过搜索引擎为用户反馈出相关文档。这种方式不能直接反馈用户感兴趣的知识,需要用户花费很大精力从大量相关文档中进行筛选。知识图谱技术采用RDF三元组表示的语义网络,旨在实现搜索引擎从“机械罗列”向“网络集知”发展,为用户提供语义化、关联式信息检索,在一定程度上缓解了上述问题。但是知识图谱不是为了面向主题的认知学习,无法体现各主题间的认知关系,容易导致学习迷航问题。知识地图依据人类认知学习的特点,将知识与知识间的关系组织成图的形式,形成了一种高效的表示知识及知识间组织结构的方式,为缓解学习迷航问题提供了有效的方法。
学习依赖关系描述了知识单元之间在认知过程中互相依赖的关系。判定两个知识单元是否有关系,是知识地图构建中的一项基本但非常重要的工作。目前,高质量的知识地图,仍需要领域专家根据领域知识来标注知识单元之间的学习依赖关系,构建过程比较缓慢。因此,设计有效的学习依赖关系挖掘算法,将大大提高知识地图构建速度,减少人力消耗,有助于推动以知识地图为基础的导航学习的研究与应用。
针对知识单元之间学习依赖关系挖掘的方法,专利号为ZL201110312882.1,名称为一种面向文本的知识单元关联关系挖掘方法,提出的方法包括如下步骤:(1)文本关联挖掘:对文本集合进行聚类,找到具有相似主题的文本对,并利用核心术语分布的不对称性,挖掘文本间的线性关联关系;(2)生成候选知识单元对:利用知识单元关联关系的局部性,产生候选的知识单元对;(3)特征选择及知识单元关联关系挖掘:基于知识单元对的术语词频、距离和语义类型特征,使用SVM分类器将候选的知识单元对进行二值分类,挖掘知识单元间的关联关系。该方法可大大减少候选知识单元个数,在保证精度的前提下,有效地降低了关系挖掘的时间复杂度。由于其利用了学习依赖关系的局部性,上述方法难以抽取距离较远的知识单元之间的学习依赖关系。
发明内容
为了解决现有技术中的问题,本发明提出一种从课件文本自动抽取知识单元间学习依赖关系的方法,能够对课件文本进行自动分析,识别出文本中的术语并计算出术语对知识单元的关键程度,并通过最优化术语之间的关系得到学习依赖关系挖掘的模型,过程不依赖于学习依赖关系的局部性,能够用来挖掘主题关联较远的知识单元之间的学习依赖关系,为学习者提供更为完整的知识导航服务。
为了实现以上目的,本发明所采用的技术方案为:包括以下步骤:
1)基于互信息的候选术语生成:首先将课件文档转换成文本格式,并进行分词处理;然后利用互信息衡量相邻词汇结合的紧密程度,并对结合紧密的词汇进行合并处理,从而得到候选术语集合;
2)基于维基百科的同义术语约减:爬取术语对应的维基百科页面,利用维基百科页面中的重定向标志和多语言链接,对同义术语进行约减处理;
3)术语关键程度度量:首先计算每个术语对应的TF-IDF参数值,然后利用知识单元名称特征和格式特征对TF-IDF参数值进行加权处理,以此衡量每个术语对知识单元的关键程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610874480.3/2.html,转载请声明来源钻瓜专利网。





