[发明专利]一种自适应的基于词汇文本难度的生词标注系统及方法有效
申请号: | 202110316129.3 | 申请日: | 2021-03-24 |
公开(公告)号: | CN112949259B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 蒋东辰;蒋翱远;陈轶阳;康鑫;隗艳萍;孙艳 | 申请(专利权)人: | 北京林业大学;广州摩翼信息科技有限公司 |
主分类号: | G06F40/143 | 分类号: | G06F40/143;G06F40/194 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 张乾桢 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 基于 词汇 文本 难度 生词 标注 系统 方法 | ||
本发明提出一种自适应的基于词汇文本难度的生词标注方法及系统,所述方法包括以下步骤:步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;步骤四、进行文本难度评估,并给出文本难度提示信息。本发明既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。
技术领域
本发明属于计算机交互及计算机英语学习领域,特别涉及一种基于词汇文本难度的生词标注系统及方法。
背景技术
阅读是学生提升语言能力的主要途径,生词是学生阅读的主要障碍和提升方向。恰当的生词标注将能够有效降低学生学习的难度,增加学生的词汇积累。为此,本发明将针对英文阅读文本生词标注提供一套系统及方法。
当前,针对学生英语阅读的词汇标注要么是有英语教师及编辑手动完成,要么是通过设置词库由计算机自动完成。手工标注的准确性极大的依赖于标注者对不同水平学生能力的把握,存在个体差异,容易出现错标漏标等问题;同时,手工标注人力成本大,不适于大量的英语阅读材料的处理标注。基于计算机词库的生词标注采用一刀切的标注方法。这类方法效率高,但缺乏弹性。一些人名、地名和一些偶然出现的生词并不会影响阅读理解,但却也会被标注。这将降低阅读者的阅读体验,增加分心的关注点。
发明内容
为了解决上述技术问题,本发明提出一种自适应的基于词汇文本难度的生词标注系统及方法,既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。
本发明的技术方案为:一种自适应的基于词汇文本难度的生词标注方法,其特征在于,包括以下步骤:
步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;
步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;
步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;
步骤四、进行文本难度评估,并给出文本难度提示信息。
进一步的,所述步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;具体包括:
步骤1.1将文本text中的所有单词变形转化为原型形式,单词变形包括:首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形,假设文本中所有单词的原型构成的集合为WordSet,转步骤1.2;
步骤1.2统计文本text中各单词原型出现的次数,使用Count(w)表示单词w文本text中出现的次数,用T记录文本中的总词数,转步骤1.3;
步骤1.3对WordSet中的每一个单词w,利用公式textDif(w,text)=α(w,n)I(w)计算单词w在文本text中的难度,其中n=Count(w),转步骤1.4;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学;广州摩翼信息科技有限公司,未经北京林业大学;广州摩翼信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110316129.3/2.html,转载请声明来源钻瓜专利网。