[发明专利]一种从课件文本自动抽取知识单元间学习依赖关系的方法有效
| 申请号: | 201610874480.3 | 申请日: | 2016-09-30 |
| 公开(公告)号: | CN106649259B | 公开(公告)日: | 2019-05-24 |
| 发明(设计)人: | 魏笔凡;王晨晨;刘均;郑庆华;曾宏伟;姚思雨;吴蓓;石磊;郭朝彤 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06F16/36 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 课件 文本 自动 抽取 知识 单元 学习 依赖 关系 方法 | ||
1.一种从课件文本自动抽取知识单元间学习依赖关系的方法,其特征在于,包括以下步骤:
1)基于互信息的候选术语生成:首先将课件文档转换成文本格式,并进行分词处理;然后利用互信息衡量相邻词汇结合的紧密程度,并对结合紧密的词汇进行合并处理,从而得到候选术语集合;
2)基于维基百科的同义术语约减:爬取术语对应的维基百科页面,利用维基百科页面中的重定向标志和多语言链接,对同义术语进行约减处理;
3)术语关键程度度量:首先计算每个术语对应的TF-IDF参数值,然后利用知识单元名称特征和格式特征对TF-IDF参数值进行加权处理,以此衡量每个术语对知识单元的关键程度;
4)最优化模型构建及求解:建立知识单元之间学习依赖关系与术语关系之间的定量表示,将模型求解问题转化为最优化问题,构建出最优化的目标函数,并利用梯度下降算法进行模型求解,完成从课件文本自动抽取知识单元间学习依赖关系;
所述步骤3)包括以下步骤:
3.1)对候选术语集合CT'中的每一个术语,通过TF-IDF指标计算其对每个知识单元的基本关键程度,TF-IDF指标计算公式为:式中:fij表示术语i在文档dj中的词频;dfi表示术语i的文档词频;N表示文档总数;ni表示文档中出现术语i的文档数;
3.2)基于知识单元名称的加权:通过考察术语是否出现在知识单元名称中对原始的TF-IDF参数进行加权,加权公式为:Namei,j=wname×bi,j,式中:wname表示知识单元名称加权权重;bi,j表示术语i是否出现在知识单元j的名称中;
3.3)基于格式特征的加权:通过术语所在位置的字体大小,对术语的关键程度进行加权处理,加权公式如下:式中:wfont表示字体大小加权权重;k表示知识单元j对应课件中所有不同字体大小;fi,k表示术语i是否以字体大小k出现;rankk表示所有字体大小逆序排序后,字体大小k的排序值;
3.4)通过知识单元名称以及课件字体对原始TF-IDF参数进行综合加权,得到术语关键程度,加权的公式为:scorei,j=wi,j×(1+Namei,j+Fonti,j),式中:scorei,j表示术语i对知识单元j的关键程度;
所述步骤4)包括以下步骤:
4.1)目标函数构建:对于知识单元i和知识单元j,通过下式衡量它们之间存在学习依赖关系的可能性:式中:xi是由所有术语对知识单元i的关键程度构成的向量,向量中每一个元素代表相应术语对知识单元i的关键程度;A矩阵代表模型的参数;
对知识单元i,设集合Ωi={(i,j)|yij=1,j=1,2,...,n}是所有与知识单元i存在学习依赖关系的知识单元与知识单元i组成的节点对,集合为所有与知识单元i不存在学习依赖关系的知识单元与知识单元i组成的节点对,令定义如下最优化问题:
式中:X是一个矩阵,矩阵中第i行由构成;(1-v)+代表hinge损失函数;||A||F代表矩阵A的弗罗贝尼乌斯范数;
4.2)模型求解:对最优化问题,使用加速梯度下降进行求解:
令,则原目标函数写成:公式对A求导,得到梯度:
式中:ei、ej、ek都是单位向量;
4.3)学习依赖关系挖掘:通过步骤4.2)得到模型的最优化参数A矩阵,对于任意两个知识单元,通过最优化模型判断它们之间是否存在学习依赖关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610874480.3/1.html,转载请声明来源钻瓜专利网。





