[发明专利]面向分级读物的多尺度难度向量分类方法有效

专利信息
申请号: 201910874324.0 申请日: 2019-09-17
公开(公告)号: CN110727796B 公开(公告)日: 2020-12-22
发明(设计)人: 马千里;陈海斌;田帅 申请(专利权)人: 华南理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06F40/289;G06F40/211;G06F40/216
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 蒋剑明
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 分级 读物 尺度 难度 向量 分类 方法
【权利要求书】:

1.一种面向分级读物的多尺度难度向量分类方法,其特征在于,所述的分类方法包括以下步骤:

S1、预先对web html文本格式的原始文本数据进行清洗,再进行分句,分类每一个样本;

S2、将文本切分为句子s=(s1,s2,…sT),T为分句后的句子数量,每个句子切分为词w=(w1,w2,…wS),S为每个句子的词语数量;

S3、将文本句子输入到特征提取器m1中,特征提取器m1提取12个效果最为显著的基础词法特征向量和句法特征,该词法特征向量包括用于表示出现频次的词频、音节数、单词字符个数、用于表示情感词典分数的词极性、用于表示逆文档概率的IDF值、用于表示Word2vec向量的词向量、用于表示词向量的聚类标签的词聚类、单词含义个数,将以上词法特征向量求和并用句子长度做归一化得到第一词法特征向量ew;该句法特征包括句子长度、特殊符号个数、停用词个数、句子中特性词个数,将以上句法特征拼接得到第一句法特征es,第一词法特征向量ew和第一句法特征es拼接得到每个句子的基础特征表示为特征向量,上标为向量维度;

S4、将文本句子输入到特征提取器m2中,特征提取器m2提取6个词法特征向量,包括:用于度量一个概率分布或概率模型预测样本的好坏程度的句子困惑度、通过主题模型隐含狄利克雷分布获得的句子主题类型、用于表示人学会该单词的平均年龄的词语学会年龄、用于体现句法结构的复杂程度的句法树宽度、用于表示前后句词向量的余弦相似度的前后句子相似度、前后句子使用词汇的重叠度,将以上的词法特征向量求和并用句子长度做归一化得到第二词法特征向量ew,与第二句法特征es拼接,得到每个句子的多尺度特征表示

S5、将句子的基础特征表示和多尺度特征表示拼接起来,获得句子最终的特征表示

S6、将特征表示输入梯度提升树模型中,其中梯度提升树模型是用于回归和分类问题的机器学习技术,其以弱预测模型的集合的形式产生预测模型,根据梯度提升树模型输出结果和训练数据真实结果训练梯度提升树模型,利用训练好的模型在测试数据上得到最终结果的准确率accuracy值,并计算特征重要性排序。

2.根据权利要求1所述的面向分级读物的多尺度难度向量分类方法,其特征在于,所述的步骤S3中,将句子中每个词的词法特征向量求和并用句子长度做归一化得到第一词法特征向量ew的过程如下:

遍历每一个单词,获取每一个单词的以下信息:词频、音节数、单词字符个数、词极性、IDF值、词向量、词聚类、单词含义个数,将以上信息求和并用句子长度做归一化得到第一词法特征向量ew

3.根据权利要求1所述的面向分级读物的多尺度难度向量分类方法,其特征在于,所述的步骤S3中,第一句法特征es的获取过程如下:

遍历每一个句子,统计以下信息:句子长度、特殊符号个数、停用词个数、句子中特性词个数,获得第一句法特征es

4.根据权利要求1所述的面向分级读物的多尺度难度向量分类方法,其特征在于,所述的步骤S3中,使用工具speciteller获取词频、单词字符个数、用于表示情感词典分数的词极性、IDF值、词聚类、特殊符号个数、停用词个数,使用NLTK库获取单词相关特征,所述的取单词相关特征包括单词含义个数、单词音节数;使用spaCy包获取句法相关特征,所述的句法相关特征包括句子中特性词个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910874324.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top