[发明专利]一种面向试题知识点分类的层次化语义匹配方法在审
申请号: | 202210063062.1 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114429138A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 郑彦魁;马震远;马千里;陈海斌 | 申请(专利权)人: | 广州启辰电子科技有限公司;华南理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 北京前审知识产权代理有限公司 11760 | 代理人: | 张静;李亮谊 |
地址: | 510700 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 试题 知识点 分类 层次 语义 匹配 方法 | ||
1.一种面向试题知识点分类的层次化语义匹配方法,该方法包括以下步骤:
S1、根据试题知识点的层次化结构,将知识点标签l=(l1,l2,...lK)(K为知识点标签的数量)构建为试题知识点层次化结构。标签与标签间的连边值表示为e=(el1-l2,el1-l3,...el1-lK),若在试题知识点层次化结构中,两个知识点标签存在联系,则连边值为1,不存在联系则连边值为0。
S2、将试题文本切分为句子s=(s1,s2,...sT)(T为分句后的句子数量),每个句子切分为词w=(w1,w2,...wS)(S为每个句子的词语数量)。将文本句子输入特征提取器BERT(基于Transformer的双向编码器表示)m1中,提取试题文本的向量表示为特征向量,上标i为向量维度。
S3、基于S1中的知识点标签l和标签间连边e,我们可以构建描述层次化结构的有向图G=(V,E)。其中有向图G的结点为V,由知识点标签l构建。有向图G的结点连边E由标签间连边e构建。为了提取体现层次化结构的特征向量,我们首先将知识点标签l的文本转换为向量表示,然后将有向图G输入特征提取器GCN(图卷积神经网络)m2中,提取知识点层次化语义向量表示为特征向量,上标j为向量维度。
S4、基于试题文本的向量表示Ht和知识点层次化语义向量Hl,使用MLP(多层感知机)神经网络将Ht和Hl映射到联合空间中。联合空间中,试题文本的向量表示为知识点层次化语义向量为上标k为联合空间中的向量维度。
S5、基于S4中获得的联合空间向量表示,结合知识点层次化结构特定进行匹配学习。试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。首先,使用联合空间损失函数对联合空间向量表示进行约束。具体而言,该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。其次,使用边缘损失(Margin Loss)函数建模试题文本向量表示与其他知识点向量表示的关系。具体而言,除了上述与试题最切合的小知识点,试题文本向量应该与知识大领域的标签基本匹配,与无关的知识点完全不匹配。
S6、本发明方法在神经网络训练时,基于所述联合空间损失函数、边缘损失(MarginLoss)函数进行梯度反向传播训练,获得一个有较好性能的知识点分类模型。
S7、基于以上方法训练神经网络模型后,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,获得试题知识点分类标签。
2.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S3中,使用特征提取器GCN(图卷积神经网络)m2,提取知识点层次化语义向量φi的过程如下:
Hl=σ(E*V*W1)
其中,σ为激活函数,W1为可学习的矩阵参数。
3.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S4中,将试题文本的向量表示Ht和知识点层次化语义向量Hl映射到联合空间的过程如下:
φt=FFN(Ht)
φl=FFN(Hl)
其中,FFN为两层的感知机神经网络。
4.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S5中,联合空间损失函数过程如下:
损失函数的形式是L2范数的平方差,其中g表示与该试题最切合的知识点。该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州启辰电子科技有限公司;华南理工大学,未经广州启辰电子科技有限公司;华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210063062.1/1.html,转载请声明来源钻瓜专利网。