[发明专利]一种综合多源知识的在线文本类教育资源标签生成方法有效

专利信息
申请号: 201910945282.5 申请日: 2019-09-30
公开(公告)号: CN110688461B 公开(公告)日: 2021-08-06
发明(设计)人: 李莎莎;庞焜元;唐晋韬;王挺;陈凤;党芙蓉;林登雯;王攀成;徐维桑;余诗文 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/75;G06F16/78
代理公司: 长沙中科启明知识产权代理事务所(普通合伙) 43226 代理人: 任合明
地址: 410003 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 综合 知识 在线 文本 教育 资源 标签 生成 方法
【说明书】:

发明公开了一种综合多源知识的在线文本类教育资源标签生成方法,目的是提高标签的客体准确性。技术方案是先构建含有知识表示模块、语义表示模块、候选排序模块和标签比较模块的标签生成系统;知识表示模块将语料和标准标签元转化为词列表和词向量;语义表示模块构建标签向量;候选排序模块根据原始标签文字le和所有标准标签元语义的相似性生成le的候选标签列表Candi(le),并将Candi(le)中语义最相似的候选标签作为标准标签;标签比较模块将训练SVM分类器S判定对标签修改日志表中的标签修改日志是采纳还是拒绝,根据S结果对标准标签表中的对应表项进行修改。采用本发明能提高标签的客体准确率、标签结构性和标签规范性。

技术领域

本发明涉及一种教育资源的信息增强方法,尤其是一种综合多来源信息,对文本类教育资源添加高准确性、高结构化的标签的方法。

背景技术

随着互联网和信息技术的飞速发展,在线的共享教育资源日渐丰富。其中包括在线电子出版物、教育论坛、MOOC(大规模开放在线课程)等。以著名的在线课程网站coursera为例,有超过3300万注册用户,在线学习2700多门课程。每门课程包含数十段短视频,及其对应的字幕、阅读材料、随堂测试等文本形式的教育资源。

标注是对互联网资源进行信息增强的常见方式。对于互联网资源的检索、查询、摘要和自动理解均有重要作用。然而,教育资源来源复杂,待标注的历史数据多,使用者对标注的质量要求高。如何高效高质量地产生资源的标注是目前面临的主要问题之一。

标签式标注方法是现有MOOC平台进行资源标注的主要方式。其主要思想是针对标注对象生成标签,其中“标注对象”可以是一篇文章、一段视频,或者是文章、视频的特定位置,“标签”是一种可存储的数据结构,主要内容为一个词或短语。对应“标注对象”中的一个客观事实(称为“客体”),如组成、性质、特征等。一个标注对象至少包含一个客体,每个客体对应一个或几个确定的标签。

评价标签标注的客观指标有三个:客体准确率、标签结构性、标签规范性。客体准确率由精确率和召回率两部分组成。精确率是指标注结果中的客体,确实为“标注对象包含的客体”数占标注结果中的所有客体数的比例。精确率越低意味着给用户提供了越多的无用信息干扰。召回率是指标注结果中的客体,确实为标注对象的客体数占标注对象所有客体数的比例。召回率越低意味着给用户提供的正确信息越不完整。标签结构性是指标签与知识库的连接程度,定义是使用标签去检索知识库,查询到的正确客体占所有标注结果的比例。标签规范性是指对于同一个客体产生的标签是通用的一致的表述,定义是存在于客体的规范术语集合中的标签占标签总数的比例。规范术语集合可以通过查阅“全国科学技术名词审定委员会”等机构审定的术语表得到。

现有的标签标注方法分为自动抽取和用户添加两种。自动抽取标签是以TextRank等关键词抽取算法(“Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[J].Emnlp,2004:404-411.”译为:《TextRank:将顺序信息引入文本中》),自动识别文本中的关键字,并将其作为标签。自动抽取标签算法最新的研究是DBS,(DBpediaSpotlight,通用百科知识图谱标注器)。DBS方法将文本标签的生成分为两步:

第一步,标签发现。遍历待标注的文本资源,找到所有与知识库或标签库中字面相同的字符串作为标签候选集。然后按照字符串被标注的先验概率和标签边界不能相互重叠的原则,手工设置阈值,挑选出标签候选集的一部分作为标签集合。

第二步,标签链接。分别计算一个标签出现的先验概率、标签出现为此字符串的概率、标签出现在此上下文中的概率、该字符串上下文不应作为标签的概率,利用概率累加公式将第一步中的字符串链接到标签库中。

DBS的缺陷主要集中在第一步中获取的标签客体准确率低。DBS自动选择标签的精确率仅为49.45%,召回率仅为55.53%。这在教育资源标注中会遗漏大量的知识点,并引入约一倍的错误标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910945282.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top