[发明专利]基于随机子空间的决策树分类的对外汉语难度评估方法有效
| 申请号: | 201911206414.9 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN111078874B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 曾致中;陈治平;余新国;方淙;王静静;袁航;熊佳洁 | 申请(专利权)人: | 华中师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/211;G06F18/2411;G06F18/2431 |
| 代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 宋敏 |
| 地址: | 430079 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 随机 空间 决策树 分类 对外汉语 难度 评估 方法 | ||
本发明公开了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,根据文章的长度,易读性等特点生成86个统计特征,用svm进行分类,得到置信度1。将encoding特征,用svm进行分类,得到置信度2。将得到的2个置信度,融合作为新的特征,用决策树来进行分类。对于encoding特征数据:通过BERT模型提取的encoding的‑1层输出信息结果,然后再做average‑max pooling处理,得到总共有768维特征,不需要做归一化。本发明避免了传统算法低效且欠拟合的问题,最合理的使用了所有信息,使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6%的准确率。
技术领域
本发明属于教育信息化领域,具体涉及一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法。
背景技术
众所周知,阅读应该循序渐进,从易到难。太难容易导致学生的自信心受挫,对阅读丧失兴趣。而过于简单,低水平重复,则不利于阅读能力的持续提升,无法满足升入大学后阅读复杂文本,开展相关研究的学术要求。总之,只有难度适合的才是最好的。随着中国的发展,中国在国际舞台上扮演的角色越来越重要了,这使得更多的人有了学习汉语的需求。学习汉语文本是最有效的方式之一,但是学习一定难度汉语文本需要汉语学习者自身具备一定的文化素养,若是汉语学习者不满足对应文本对其汉语功底要求,则会事倍功半并且会极大的打击汉语学习者的兴趣爱好。并且在培养汉语学习者的写作能力的时候,应该有针对性的提供各种文体给其参考,并且能基于汉语学习者所写的作文文体来进行评判打分。故汉语文本的分类是辅助汉语学习系统的关键技术。
对外汉语分级读物的难易度指的是该级别的读物是否适合汉语语言程度达到该级别的汉语学习者来阅读,是否会出现读物过难,或者读物太容易的情况。
文本分类是利用计算机对文本集按照一定的分类体系或者标准来进行自动分类标记,根据其是否使用深度学习技术分为两大类,第一类是基于传统机器学习文本分类,第二类是基于深度学习文本分类。当然第二类中的文本分类技术中有些情况会使用深度学习的方法和传统机器学习的方法相结合。
90年代后期,传统机器学习飞速发展,对于文本分类问题形成了一套固有的模式,特征工程+分类器模型。这里的特征工程就是将文本中的信息提炼,使计算机可以轻松识别读取文本中的信息,通常特征工程分为三步,第一步文本预处理,第二步特征提取,第三步文本表示。分类器模型比较著名的有朴素贝叶斯分类算法、KNN、SVM、最大熵等等。
在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”);在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
目前关于中文文本分类多是对于微博和新闻等简单短小的文本集进行分类,而针对于可供汉语学习者的汉语文本分类若是使用现有的方法效果都不太理想。
发明内容
针对现有技术以上缺陷或改进需求中的至少一种,特别是由于汉语学习者的文本分类问题的复杂性,在面对汉语学习者不同的需求的时候,分类的标准会发生相应的变化,针对于该任务本发明提出了一种基于Bert模型、svm和决策树特征融合的对外汉语难度评估方法。根据文章的长度,易读性等特点生成86个统计特征,用svm进行分类,得到置信度1。将encoding特征,用svm进行分类,得到置信度2。将得到的2个置信度,融合作为新的特征,用决策树来进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206414.9/2.html,转载请声明来源钻瓜专利网。





