[发明专利]基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法有效
| 申请号: | 202010807631.X | 申请日: | 2020-08-12 |
| 公开(公告)号: | CN112001536B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 吴湖 | 申请(专利权)人: | 武汉青忆辰科技有限公司 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/20;G06F16/901;G06F16/36;G06N3/044;G06N3/045;G06N3/048;G06N3/084 |
| 代理公司: | 武汉聚信汇智知识产权代理有限公司 42258 | 代理人: | 郝雅娟 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 机器 学习 中小学 数学 能力 点缺陷 极小 样本 高精度 发现 方法 | ||
1.基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法,其特征在于,包括如下步骤:
步骤1:构建K12阶段的数学能力图谱,并构建能力点之间的概率联系;
步骤2:生成题库,并打上能力点标签数据;
步骤3:使用RNN+SortNet的方法来对学生的答题数据以及步骤1得到的数学能力图谱数据进行模型训练,得到学生动态的能力缺陷点排名预测,将当前能力点按掌握程度从低到高排序,从而发现学生在数学学科学习中的能力缺陷点;
所述步骤1中的构建K12阶段的数学能力图谱,具体步骤是:
步骤1.1:通过解析K12阶段的最细粒度的数学能力,获得K12阶段的数学能力图谱,包括若干个能力点;
步骤1.2:能力点之间的概率联系构建:给定标注好能力点的题库Q={q1,q2,…,qn},使用随机游走方法迭代获得最佳网络概率联接参数;
所述步骤1.2中的能力点之间的概率联系构建,具体步骤包括:标注好的知识点与题目构成了二分图,即知识点构成了一组节点集合,题目构成了另一组节点集合,有且只有知识点节点和题目节点之间有连接的边,借鉴蚁群信息素+随机游走的方法,采用一种计算二分图节点相似性的方法,来计算原本没有联系的知识点间的概率关联;
节点ui代表知识点,vj代表题目,如果题目vj被标注为与ui知识点相关,则ui与vj有边相连;
为第t轮迭代,知识点ui带有的信息素种类及浓度;为第t轮迭代,题目vj带有的信息素种类及浓度;
初始化阶段,和均为长度为|U|的矢量,|U|即知识点数;
通过题目与知识点之间关联的多次传播和迭代,可以得到每个知识点节点上携带的所有其他知识点信息素种类和数量,代表了该知识点与其他知识点的联系及强弱,从而构成一幅带有转移概率联接的知识图谱;
所述步骤3的发现过程,具体步骤如下:
步骤3.1:数据准备和预处理,包括能力点激活预处理、训练和测试数据准备;
步骤3.2:模型训练,具体包括:
Q={q1,q2,…,qn},T={t1,t2,…,tm},
训练过程,预测过程
其中Q为问题相关的特征集合,qi=[t1,t2,…,tm,qscorei,yi]是模型的输入数据,T为知识点相关的特征集合,tj为表征该题是否涉及知识点j,取值0代表不涉及,1代表涉及,qscorei代表题目的难度值,取值范围(0,1),越大代表题目越难,yi是学生回答的结果,正确为1,错误为0;是用户最近测评的结果,其中ui为最近几次评测的按主题缺陷度排序结果;是预测结果,包含m个待排序主题的向量,其中按掌握程度从低到高排序为:r1<r2<…<rm,是用于训练排序,包含m个待排序主题的向量,其中按掌握程度从低到高排序为:s1=s2=…=sk<sk+1=sk+2=…=sm,被标记为缺陷的k个知识点整体低于其余知识点;对于SortNet网络,正向传播公式为:
N>(x,y)=σ(∑i,i′wi,>hi(x,y)+wi′,>hi′(x,y)+b>), (6)
对于RNN网络,正向传播公式为:
ht=tanh(Whxxt+Whx′x′t+Whhht-1+bh), (7)
yt =σ(Wyhht +by), (8)
SortNet网络接收自变量输入数据,产生结果N>和N<,分别代表输入知识点k,即x参数,缺陷值大于和小于知识点p,即y参数的概率,进而又作为RNN网络的输入参数,RNN进行3个周期的序列计算,输出o;o接近1代表k知识点的缺陷度大于知识点p,o接近-1代表k知识点的缺陷度小于知识点p;vxk,i和vyk,i为SortNet层待学习的联接权重,Whx和Whx′为RNN层待学习的联接权重,分别对应输入的N>和N<,Whh为待学习的隐含层联接权重;σ和tanh为神经网络中标准的激活函数,具体定义见实验环节;各网络参数采用标准反向传播方法BP进行求解;
步骤3.3:模型训练流程和模型评价,具体包括:模型训练、预测代码采用python3.0语言实现,其中深度学习模块使用PyTorch实现,硬件平台为CentOS 8.0服务器,训练流程如下表所述:
模型评价,具体包括:
采用通行的衡量排序指标NDCG和Recall@5来对比本方法与传统SortNet方法的效果;
(1)NDCG指标
其中
(2)Recall@5指标
取预测排名靠前的5个知识点,与专家标注的缺陷知识点进行比对,计算如下指标:
步骤3.4:实验结果和模型对比,包括:对若干名学生测试数据实验结果分别采用三种方法进行评价,分别为SortNet;方法RNNSortNet1,无激活步骤处理,采用公式1和2;方法RNNSortNet2,有激活步骤处理,采用公式1和3;
步骤3.5.将答题数据输入步骤3.4模型对比后的最优模型,得到学生动态的能力缺陷点排序,将能力点按掌握程度从低到高排序,从而发现学生的能力缺陷点;具体包括:完成了模型评测后,再将所有的数据重新进行训练一个完整的模型,得到模型M;对于未出现于训练数据的学生,对其进行若干次测试,每次测试若干道题;将答题数据输入模型,得到学生知识点的薄弱度排序;依据模型排序结果,得出重点需要给该学生推荐的知识点;
步骤3.1中的能力点激活预处理,具体步骤包括:采用两种不同的知识点权值计算方法:二值权重和概率权重,分别对应于不考虑知识点间联系和考虑知识点间联系;
定义第k个能力点分值向量为:定义第i道题目的能力点分值向量为:其中j∈[1,m],m为能力点数量
或
公式(2)和(3)的区别是是否考虑了知识图谱的结构信息,公式(2)称为无激活处理,公式(3)称为激活处理,分别对应本方法提出的两种不同的模型RNNSortNet1和RNNSortNet2;
步骤3.2中的模型训练,包括:训练样本生成,即:对于每名学生的每次测验,基于测验结果对当前测验进行专家评估,对当前测验试题所涉及的知识点进行缺陷定位,标记薄弱的知识点,采取0/1取值,标记为薄弱的知识点集合记为Ws={t1,t2,…,tw},其余非薄弱知识点集合记为NWs={nt1,nt2,…,ntnw},下标s取值为[1,n],n代表总共做的有间隔的测试次数,对于每次测验,生成三元组{tk,ntp,1}或{ntp,tk,-1},随机选择一种,三元组包含的特征值记为{x1k,x2k,…,x10k,y1p,y2p,…,y10p,oi},其中oi=-1或1,k缺陷度小于或大于p;
假设当前计算的是知识点k和p的输入参数,那么第i道题关于知识点k和p的输入值计算公式如下:
其中Qik和Tk的定义参考前文公式(1~3);
表征学生过去缺陷点的向量通过RNN的隐含层ht捕捉并输入到rt+1的计算中;
步骤3.2中的模型训练,包括:模型训练细节:
h0是RNN模型的超参数,按照常规,将它设定为0;
公式(5)、(6)和(8)中σ是激活函数,使用的是Sigmoid函数,定义为:
公式(7)中的tanh也是激活函数,定义为:
SortNet中的隐藏层节点数设定为10,随着训练数据的增加,需要调高这个值以带来效果的提升。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉青忆辰科技有限公司,未经武汉青忆辰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010807631.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遥控型智能扫地机
- 下一篇:一种垃圾中转站渗滤液的处理方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





