[发明专利]基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法有效

申请号：	202010807631.X	申请日：	2020-08-12
公开（公告）号：	CN112001536B	公开（公告）日：	2023-08-11
发明（设计）人：	吴湖	申请（专利权）人：	武汉青忆辰科技有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/20;G06F16/901;G06F16/36;G06N3/044;G06N3/045;G06N3/048;G06N3/084
代理公司：	武汉聚信汇智知识产权代理有限公司 42258	代理人：	郝雅娟
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习中小学数学能力点缺陷极小样本高精度发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于机器学习的中小学数学能力点缺陷极小样本高精度发现方法，其特征在于，包括如下步骤：

步骤1：构建K12阶段的数学能力图谱，并构建能力点之间的概率联系；

步骤2：生成题库，并打上能力点标签数据；

步骤3：使用RNN+SortNet的方法来对学生的答题数据以及步骤1得到的数学能力图谱数据进行模型训练，得到学生动态的能力缺陷点排名预测，将当前能力点按掌握程度从低到高排序，从而发现学生在数学学科学习中的能力缺陷点；

所述步骤1中的构建K12阶段的数学能力图谱，具体步骤是：

步骤1.1：通过解析K12阶段的最细粒度的数学能力，获得K12阶段的数学能力图谱，包括若干个能力点；

步骤1.2：能力点之间的概率联系构建：给定标注好能力点的题库Q＝{q₁,q₂,…,q_n}，使用随机游走方法迭代获得最佳网络概率联接参数；

所述步骤1.2中的能力点之间的概率联系构建，具体步骤包括：标注好的知识点与题目构成了二分图，即知识点构成了一组节点集合，题目构成了另一组节点集合，有且只有知识点节点和题目节点之间有连接的边，借鉴蚁群信息素+随机游走的方法，采用一种计算二分图节点相似性的方法，来计算原本没有联系的知识点间的概率关联；

节点u_i代表知识点，v_j代表题目，如果题目v_j被标注为与u_i知识点相关，则u_i与v_j有边相连；

为第t轮迭代，知识点u_i带有的信息素种类及浓度；为第t轮迭代，题目v_j带有的信息素种类及浓度；

初始化阶段，和均为长度为|U|的矢量，|U|即知识点数；

通过题目与知识点之间关联的多次传播和迭代，可以得到每个知识点节点上携带的所有其他知识点信息素种类和数量，代表了该知识点与其他知识点的联系及强弱，从而构成一幅带有转移概率联接的知识图谱；

所述步骤3的发现过程，具体步骤如下：

步骤3.1：数据准备和预处理，包括能力点激活预处理、训练和测试数据准备；

步骤3.2：模型训练，具体包括：

Q＝{q₁,q₂,…,q_n},T＝{t₁,t₂,…,t_m},

训练过程，预测过程

其中Q为问题相关的特征集合，q_i＝[t₁,t₂,…,t_m,qscore_i,y_i]是模型的输入数据，T为知识点相关的特征集合，t_j为表征该题是否涉及知识点j，取值0代表不涉及，1代表涉及，qscore_i代表题目的难度值，取值范围(0，1)，越大代表题目越难，y_i是学生回答的结果，正确为1，错误为0；是用户最近测评的结果，其中u_i为最近几次评测的按主题缺陷度排序结果；是预测结果，包含m个待排序主题的向量，其中按掌握程度从低到高排序为：r₁＜r₂＜…＜r_m，是用于训练排序，包含m个待排序主题的向量，其中按掌握程度从低到高排序为：s₁＝s₂＝…＝s_k＜s_k+1＝s_k+2＝…＝s_m，被标记为缺陷的k个知识点整体低于其余知识点；对于SortNet网络，正向传播公式为：

N_＞(x,y)＝σ(∑_i,i′w_i,＞h_i(x,y)+w_i′,＞h_i′(x,y)+b_＞)， (6)

对于RNN网络，正向传播公式为：

h_t＝tanh(W_hxx_t+W_hx′x′_t+W_hhh_t-1+b_h)， (7)

y_t ＝σ(W_yhh_t +b_y)， (8)

SortNet网络接收自变量输入数据，产生结果N_＞和N_＜，分别代表输入知识点k，即x参数，缺陷值大于和小于知识点p，即y参数的概率，进而又作为RNN网络的输入参数，RNN进行3个周期的序列计算，输出o；o接近1代表k知识点的缺陷度大于知识点p，o接近-1代表k知识点的缺陷度小于知识点p；v_xk,i和v_yk,i为SortNet层待学习的联接权重，W_hx和W_hx′为RNN层待学习的联接权重，分别对应输入的N_＞和N_＜，W_hh为待学习的隐含层联接权重；σ和tanh为神经网络中标准的激活函数，具体定义见实验环节；各网络参数采用标准反向传播方法BP进行求解；

步骤3.3：模型训练流程和模型评价，具体包括：模型训练、预测代码采用python3.0语言实现，其中深度学习模块使用PyTorch实现，硬件平台为CentOS 8.0服务器，训练流程如下表所述：

模型评价，具体包括：

采用通行的衡量排序指标NDCG和Recall@5来对比本方法与传统SortNet方法的效果；

(1)NDCG指标

其中

(2)Recall@5指标

取预测排名靠前的5个知识点，与专家标注的缺陷知识点进行比对，计算如下指标：

步骤3.4：实验结果和模型对比，包括：对若干名学生测试数据实验结果分别采用三种方法进行评价，分别为SortNet；方法RNNSortNet1，无激活步骤处理，采用公式1和2；方法RNNSortNet2，有激活步骤处理，采用公式1和3；

步骤3.5.将答题数据输入步骤3.4模型对比后的最优模型，得到学生动态的能力缺陷点排序，将能力点按掌握程度从低到高排序，从而发现学生的能力缺陷点；具体包括：完成了模型评测后，再将所有的数据重新进行训练一个完整的模型，得到模型M；对于未出现于训练数据的学生，对其进行若干次测试，每次测试若干道题；将答题数据输入模型，得到学生知识点的薄弱度排序；依据模型排序结果，得出重点需要给该学生推荐的知识点；

步骤3.1中的能力点激活预处理，具体步骤包括：采用两种不同的知识点权值计算方法：二值权重和概率权重，分别对应于不考虑知识点间联系和考虑知识点间联系；

定义第k个能力点分值向量为：定义第i道题目的能力点分值向量为:其中j∈[1,m]，m为能力点数量

或

公式(2)和(3)的区别是是否考虑了知识图谱的结构信息，公式(2)称为无激活处理，公式(3)称为激活处理，分别对应本方法提出的两种不同的模型RNNSortNet1和RNNSortNet2；

步骤3.2中的模型训练，包括：训练样本生成，即：对于每名学生的每次测验，基于测验结果对当前测验进行专家评估，对当前测验试题所涉及的知识点进行缺陷定位，标记薄弱的知识点，采取0/1取值，标记为薄弱的知识点集合记为W_s＝{t₁,t₂,…,t_w}，其余非薄弱知识点集合记为NW_s＝{nt₁,nt₂,…,nt_nw}，下标s取值为[1，n]，n代表总共做的有间隔的测试次数，对于每次测验，生成三元组{t_k,nt_p,1}或{nt_p,t_k,-1}，随机选择一种，三元组包含的特征值记为{x_1k,x_2k,…,x_10k,y_1p,y_2p,…,y_10p,o_i}，其中o_i＝-1或1，k缺陷度小于或大于p；