[发明专利]面向分级读物的多尺度难度向量分类方法有效
申请号: | 201910874324.0 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110727796B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 马千里;陈海斌;田帅 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/211;G06F40/216 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蒋剑明 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 分级 读物 尺度 难度 向量 分类 方法 | ||
本发明公开了一种面向分级读物的多尺度难度向量分类方法,该分类方法首先构造词语搭配特征、上下文特征、主题特征等丰富了特征表示,结合之前研究中效果最突出的特征,获得一个轻量、全面的句子难度向量,再输入到分类器如梯度提升树(GBDT)中,在教育分级读物语料、通用语料上达到很好的效果。该发明简化了特征表示,只需要21个向量就能体现句子难度,引入了多尺度特征丰富了难度特征表示,增强了模型泛化性;结合新使用的上下文信息构建了对句子级别和文章级别都适用的难度向量表示系统,在句子级别和文章级别的两个数据集都获得了较好的效果;分类器使用梯度提升树,训练速度快,可以获得特征重要性排序。
技术领域
本发明涉及自然语言处理中的明确性分析技术领域,具体涉及一种面向分级读物的多尺度难度向量分类方法。
背景技术
难度向量分类的任务是,给定一篇文本,通过对文本进行分析,给出该文本的难度值或判断该文本适合哪一水平的读者。应用在教育领域,可以为分级语料和课本素材的选取提供参考依据,对句子的理解难度、复杂性有定量的度量。在通用文本领域如新闻文本,也可对新闻阅读难度、专业性做分析。本难度向量可对文本的理解难度、复杂性做一个较为准确的度量,为句子简化和提炼提供重要的依据,同时也为教育领域分级语料的挑选提供参考。在如今自然语言处理的不断发展下,句子难度分析也有着重要的实践和应用价值。
在难度向量的特征提取方面,国内外使用的模型任务可分为基于可读性公式、基于分类、基于排序的方法。可读性公式综合特定文本因素输出文本难度分数,目前主要作为机器学习分类的特征之一。基于分类与排序的方法所使用的特征,主要可分为词汇特征与句法特征。在文献“Annie Louis and Ani Nenkova,“Automatic identification ofgeneral and specific sentences by leveraging discourse annotations.”,InProceedings of International Joint Conference on Natural Language Processing(IJCNLP).pp.605–613,2011”中,Louis等人首先提出了句子明确性分类问题,考虑了句子长度,词语极性,词性等基础特征应用在WSJ新闻语料库分类上。在文献“Jorge AlbertoWagner Filho,Rodrigo Wilkens and Aline Villavicencio.“Automatic Constructionof Large Readability Corpora”,in Proceedings of the Workshop on ComputationalLinguistics for Linguistic Complexity(CL4LC).pp.164–173,2016”中,Junyi JessyLi等人在原先基础上通过引入词聚类,TF-IDF数值为出现次数较少的单词提供了更多信息,提升了泛化性,并使用半监督方法扩充了语料,开源了speciteller项目。Jorge等人扩充了难度特征个数达到89个,包括词语音节数、句法树等其他语言学特征。这些词语特征反映了词语的复杂程度,句法特征反映了句法使用的复杂程度。在构造完句子的特征表示后,使用机器学习分类器如决策树、神经网络等进行分类。在已有的中文专利方面“范舟,白彬,袁敦龙,钱登胜,余夏婷,陈遥.一种评估文本难度的方法[P].中国发明专利,CN105068993A,2015-11-18”中,范舟等人结合统计学原理和中文汉字特点进行了文本难度评估,但其所使用的可读性公式只包含统计特征的线性和对数值的组合,缺乏对文本语义的挖掘,而本专利的研究过程中,发明人在统计语言学特征的基础上融入了句子结构、语义、句义等的多尺度语义的难度衡量信息,解决了教育分级读物和新闻文本分类的需求。目前该领域存在的问题是,为了获得丰富的句子特征,构造特征、模型学习需要花费较多的时间,使用的特征大多局限于词汇与句法级别,对句子信息的提取不够全面。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910874324.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新闻播报的方法及装置
- 下一篇:标签生成方法、装置、电子设备和计算机可读介质