[发明专利]一种综合多源知识的在线文本类教育资源标签生成方法有效
| 申请号: | 201910945282.5 | 申请日: | 2019-09-30 |
| 公开(公告)号: | CN110688461B | 公开(公告)日: | 2021-08-06 |
| 发明(设计)人: | 李莎莎;庞焜元;唐晋韬;王挺;陈凤;党芙蓉;林登雯;王攀成;徐维桑;余诗文 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/75;G06F16/78 |
| 代理公司: | 长沙中科启明知识产权代理事务所(普通合伙) 43226 | 代理人: | 任合明 |
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 综合 知识 在线 文本 教育 资源 标签 生成 方法 | ||
本发明公开了一种综合多源知识的在线文本类教育资源标签生成方法,目的是提高标签的客体准确性。技术方案是先构建含有知识表示模块、语义表示模块、候选排序模块和标签比较模块的标签生成系统;知识表示模块将语料和标准标签元转化为词列表和词向量;语义表示模块构建标签向量;候选排序模块根据原始标签文字le和所有标准标签元语义的相似性生成le的候选标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签;标签比较模块将训练SVM分类器S判定对标签修改日志表中的标签修改日志是采纳还是拒绝,根据S结果对标准标签表中的对应表项进行修改。采用本发明能提高标签的客体准确率、标签结构性和标签规范性。
技术领域
本发明涉及一种教育资源的信息增强方法,尤其是一种综合多来源信息,对文本类教育资源添加高准确性、高结构化的标签的方法。
背景技术
随着互联网和信息技术的飞速发展,在线的共享教育资源日渐丰富。其中包括在线电子出版物、教育论坛、MOOC(大规模开放在线课程)等。以著名的在线课程网站coursera为例,有超过3300万注册用户,在线学习2700多门课程。每门课程包含数十段短视频,及其对应的字幕、阅读材料、随堂测试等文本形式的教育资源。
标注是对互联网资源进行信息增强的常见方式。对于互联网资源的检索、查询、摘要和自动理解均有重要作用。然而,教育资源来源复杂,待标注的历史数据多,使用者对标注的质量要求高。如何高效高质量地产生资源的标注是目前面临的主要问题之一。
标签式标注方法是现有MOOC平台进行资源标注的主要方式。其主要思想是针对标注对象生成标签,其中“标注对象”可以是一篇文章、一段视频,或者是文章、视频的特定位置,“标签”是一种可存储的数据结构,主要内容为一个词或短语。对应“标注对象”中的一个客观事实(称为“客体”),如组成、性质、特征等。一个标注对象至少包含一个客体,每个客体对应一个或几个确定的标签。
评价标签标注的客观指标有三个:客体准确率、标签结构性、标签规范性。客体准确率由精确率和召回率两部分组成。精确率是指标注结果中的客体,确实为“标注对象包含的客体”数占标注结果中的所有客体数的比例。精确率越低意味着给用户提供了越多的无用信息干扰。召回率是指标注结果中的客体,确实为标注对象的客体数占标注对象所有客体数的比例。召回率越低意味着给用户提供的正确信息越不完整。标签结构性是指标签与知识库的连接程度,定义是使用标签去检索知识库,查询到的正确客体占所有标注结果的比例。标签规范性是指对于同一个客体产生的标签是通用的一致的表述,定义是存在于客体的规范术语集合中的标签占标签总数的比例。规范术语集合可以通过查阅“全国科学技术名词审定委员会”等机构审定的术语表得到。
现有的标签标注方法分为自动抽取和用户添加两种。自动抽取标签是以TextRank等关键词抽取算法(“Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Emnlp,2004:404-411.”译为:《TextRank:将顺序信息引入文本中》),自动识别文本中的关键字,并将其作为标签。自动抽取标签算法最新的研究是DBS,(DBpediaSpotlight,通用百科知识图谱标注器)。DBS方法将文本标签的生成分为两步:
第一步,标签发现。遍历待标注的文本资源,找到所有与知识库或标签库中字面相同的字符串作为标签候选集。然后按照字符串被标注的先验概率和标签边界不能相互重叠的原则,手工设置阈值,挑选出标签候选集的一部分作为标签集合。
第二步,标签链接。分别计算一个标签出现的先验概率、标签出现为此字符串的概率、标签出现在此上下文中的概率、该字符串上下文不应作为标签的概率,利用概率累加公式将第一步中的字符串链接到标签库中。
DBS的缺陷主要集中在第一步中获取的标签客体准确率低。DBS自动选择标签的精确率仅为49.45%,召回率仅为55.53%。这在教育资源标注中会遗漏大量的知识点,并引入约一倍的错误标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910945282.5/2.html,转载请声明来源钻瓜专利网。





