[发明专利]一种基于数理特征提取的数学题文本多标签分类方法在审
| 申请号: | 202210485759.8 | 申请日: | 2022-05-06 |
| 公开(公告)号: | CN114880474A | 公开(公告)日: | 2022-08-09 |
| 发明(设计)人: | 侯骏;周从华;朱小龙 | 申请(专利权)人: | 江苏大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京智造力知识产权代理有限公司 32382 | 代理人: | 汪芬 |
| 地址: | 212013 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数理 特征 提取 数学题 文本 标签 分类 方法 | ||
本发明公开了一种基于数理特征提取的数学题文本多标签分类方法,以数学题试题作为样本,知识点为样本标签;对样本及其标签进行预处理和特征提取,对样本特征向量进行编码得到隐藏层向量;引用自注意力机制计算各个隐藏层向量的注意力权重,得到文本输出的特征向量;将答案解析文本分为叶节点和根节点,由叶节点文本信息特征及根节点文本信息特征形成特征先验树的特征矩阵;对样本特征向量与特征先验树的特征矩阵进行数理特征提取,将文本输出的特征向量和数理特征提取部分的输出结果输入分类器,由分类器输出分类结果;设置训练停止条件,当训练停止时获得训练好的数学文本多标签分类模型;利用数学文本多标签分类模型对数学题文本进行有效分类。
技术领域
本发明涉及自然语言处理领域,具体涉及一种结合先验知识的数理特征提取的数学题多标签文本分类方法。
背景技术
近年来,随着计算能力的发展,人工智能理论与应用得到了突破性进展,并在计算机视觉、自然语言处理、推荐算法等领域得到了广泛落地,融入了日常生活的方方面面。例如,无处不在的生物特征识别技术;融入各种消费场景的推荐技术;智能客服、机器翻译、文本挖掘、风险控制、辅助驾驶等技术,已经很大程度上改变了人们的生活方式。利用人工智能技术取代重复的人力劳动、提高效率,已是各行业明显的趋势,作为人口素质和国家储备力量的重要保证,教育领域在人工智能的应用与研究已成为学界和工业界研究的一个热点,目前,我国存在教育资源分配不均、个性化教育缺乏等问题,利用人工智能技术,促进知识加工的效率,为学生提供全面、个性化的教育服务,有利于个人和国家的发展。数学学科作为培养逻辑能力的基础学科,值得重点研究。
在教育领域,从专业书籍、试卷到碎片化的网络知识,最重要的资源就是语言文字为载体的知识,因此自然语言处理技术在教育领域中有着众多应用场景。
但是,目前自然语言处理技术的研究多集中于搜索、新闻、电商等场景下,对于教育领域的研究相对较少,导致存在语料资源少、语料质量层次不齐、缺少针对教育领域特点的方法等问题;作为重要教育基础设施之一的题库,对于巩固知识、检验学习效果十分重要,尤其是数学学科,逻辑思维的养成需要大量训练,因此初等数学题库具有重要应用价值。
数学题多标签文本分类解决了对于教育领域的研究相对较少,导致存在语料资源少、缺少针对教育领域特点的方法等问题。数学题多标签文本分类可以让学生巩固知识、提升学习效果,大量训练训练学生逻辑思维的养成,让学生可以进行个性化学习,提高数学成绩。
题型自动分类可以为其他任务,如题库自动构建、易错点分析、相关题推荐、自动组卷等提供抽象的题目特征,同时为题库对海量题目的组织管理提供了可能,是智能题库的基础组件之一。在诸多应用场景下,手动标注标签费时费力,自动标签系统可以省时省力。针对数学文本的特点的自然语言处理方面的应用研究较少,尤其是缺少对数学分词、命名实体识别技术的研究,套用通用技术通常不能取得很好的效果。因此,本文针对教育领域的研究可以有效扩充自然语言技术的应用范围,可以为通用自然语言处理技术在垂直领域的应用提供一定经验。
已有的针对数学题目自动分类的研究较少,且主要集中于人工提取数学问题文本层面的特征,应用传统的浅层机器学习算法如朴素贝叶斯、支持向量机等进行分类,模型效果受人工选择特征的影响较大,基于词频等统计指标的文本表示方式损失了较多的信息。Lv等人采用的了一阶策略,训练多个二元分类器,将最后的预测结果进行拼接,忽略标签间的相关性。而且采用机器学习的方法,模型效果受人工选择特征影响较大。噪音多,稀疏数据占比减少,导致数据聚集效应的消失,特征学习变得困难。Ye等人采用了深度学习方法,配合着在自然语言处理领域中表达语义信息的词向量,训练模型生成知识点标签,但数学题文本存在很强的逻辑性,一些推导的信息分类器无法识别出来。
基于当前技术所存在的问题,本发明采用序列到序列模型优秀的高阶标签相关性特性,提出一种结合先验知识的数理特征提取方法,产生多个知识点标签,从而很好的解决了这一难题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210485759.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:晶圆表面缺陷的检测方法、系统、计算机设备和存储介质
- 下一篇:一种测量电路





