[发明专利]基于随机子空间的决策树分类的对外汉语难度评估方法有效
| 申请号: | 201911206414.9 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN111078874B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 曾致中;陈治平;余新国;方淙;王静静;袁航;熊佳洁 | 申请(专利权)人: | 华中师范大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/211;G06F18/2411;G06F18/2431 |
| 代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 宋敏 |
| 地址: | 430079 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 随机 空间 决策树 分类 对外汉语 难度 评估 方法 | ||
1.一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于,包括如下步骤:
S1、对对外汉语文章进行预处理;
S2、对于步骤S1预处理之后的对外汉语文章,根据对外汉语文章的长度,文章的易读性,文章的生词量生成多个特征;
S3、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类,得到置信度1;
S4、对于步骤S1预处理之后的对外汉语文章,通过BERT模型提取的encoding的-1层输出信息结果,再做average-max pooling处理,得到文章的多维encoding特征;
S5、将encoding特征,使用基于随机子空间的svm进行分类,得到置信度2;
S6、将得到的2个置信度,融合作为新的特征,用决策树来进行分类。
2.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括保存为txt格式。
3.如权利要求2所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括删除文章中的空行。
4.如权利要求3所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,对对外汉语文章进行预处理包括对文章进行分句。
5.如权利要求4所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S1中,分句为利用python将每篇文章以句子为单位进行切割,存储在list结构中,并且去除标点符号。
6.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S2中生成的多个特征包括总字数,总笔画数,段落数,总句数,生词数。
7.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法,其特征在于:
步骤S6中,将置信度1和置信度2使用求加权平均值,来作为这篇文章的综合输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206414.9/1.html,转载请声明来源钻瓜专利网。





